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Donald E. Knuth ( 唐纳德 • E • 克努特，中文 

名高德纳 ） 是算法和程序设计技术的先驱者， 
是计算机排版系统 T E X 和 METAFONT 的发明 

者，他因这些成就和大量创造性的影响深远的 
著作 （ 19部书和160篇论文）而誉满全球。作 
为斯坦福大学计算机程序设计艺术的荣誉退休 
教授，他当前正全神贯注于完成其关于计算机 
科学的史诗性的七卷集。这一伟大工程在1962 
年他还是加利福尼亚理工学院的研究生时就开 
始了。 Knuth 教授获得了许多奖项和荣誉，包 
括美国计算机协会图灵奖 （ACM Turing 
Award ), 美国前总统卡特授予的科学金奖 
(Medal of Science), 美国数学学会斯蒂尔奖 
(AMS Steele Prize ), 以及由于发明先进技术而 

于1996年11月荣获的极受尊重的京都奖 (Kyoto 
Prize)。 现与其妻 Jill 生活于斯坦福校园内。 

欲了解这位杰出科学家和作家的更多信息，请 
访问 

www.aw.com/cseng/authors/knuth 

欲了解本书和其它各卷的更多信息，请访问 

www - cs - faculty.stanford.edu/ 〜 knuth 


欲了解中译本的更多信息，请访问 

www.ndip.com.cn/computer/taocp 
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(本书如有印装错误，我社负责调换) 


Cookery is become on ort ， 

o noble science ； 
cooks ore gentlemen . 

烹调法成了一种艺术， 

一门高深的 科学; 
厨师是有教养的人。 

— TITUS LIVIUS, Ab Urbe Condi to XXXIX. vi 
(Robert Burton ， Anatomy of Melancholy 1.2.2.2) 

本书形成了第 1 卷第 2 章关于信息结构内容的自然续篇，因为它为第1卷的基 
本结构化思想增加了线性有序数据的概念。 

本书书名“排序与查找”可能给人以印象，仿佛它仅仅是为那些关心通用排序程 
序编制或信息检索应用的系统程序员编写的。然而，事实上排序与查找的领域还提 
供了一个理想的园地，以讨论范围广泛而且很重要的一般性 问题： 

•如何发现好的算法？ 

•如何改进给定的算法或程序？ 

•如何从数学上分析算法的效率？ 

•对于相同的任务，人们如何在不同的算法之间进行合理的选择？ 

. •在什么意义之下，可以证明某个算法是“最好”的？ 

•计算理论同实际考虑如何相互影响？ 

•像磁带、磁鼓或磁盘这样的外存，如何能有效地用于大型数据库？ 

其实，我确信，程序设计的每一个重要方面，实际上都离不开排序或查找！ 

本卷由全套书的第5章和第6章组成。第5章讨论的是 排序； 这是一个很大的 
课题，已经把它主要划分成两大部分，即内部排序和外部排序。还有补充的几节，提 
岀了关于排列 （5.1 节）和最优排序算法 (5. 3节）的辅助理论。第6章讨论了在表或 
文件中査找特定项目的 问题； 这又细分成顺序查找、通过键码 （ key ) 比较查找、按数 
字性质查找、“散列”查找等几种方法，而后考虑了比较困难的辅键码 （secondary key ) 

查找问题。在这两章之间存在着令人惊奇的相互影响以及强烈的类似。除了在第 
2章中所讨论的信息结构以外，这里还讨论了信息结构的两种重要的变形，即优先 
队列 （5.2. 3小节）和表示成平衡树的线性表 (6.2. 3小节）。 

和第1卷及第2卷一样，本书包括了大量在其它出版物上从未出现过的许多内 

m 


容。许多人善意地写信或口头向我表达了他们的看法，我希望，当我以我自己的文 
字来表现这些内容的时候，我没有很糟糕地曲解它们。 

我未曾有时间系统地查找专利 文献; 确实，我蔑视当前寻求算法专利的倾向（参 
见 5.4.5 小节）。如果某人把在本书中未曾引用的有关专利的一个副本寄给我，那 
我将在未来的版本中恭敬地引用它。然而我要鼓励人们继续发扬悠久的数学传统， 
把最新发现的算法投进公众领域。与其防范他人从某个人对计算机科学的贡献中 
获益，不如寻求其它更好的谋生手段。因为它与防范自己的计算机成果被他人利用 
相比会给人们带来更好的生活。 

在我从教学工作上退休下来之前，我曾把这本书用做大学三年级至研究生层次 
数据结构第二门课的教材，并省略掉了大部分数学内容。我也曾使用本书的数学部 
分作为研究生层次算法分析课程的基础，并特别强调了 5.1，5.2.2,6.3和 6.4 诸 
节。关于具体的计算复杂性方面的研究生课程也可以以 5.3 节和 5.4.4 小节，以及 
第2卷的 4.3. 3 ,4.6. 3和 4.6. 4诸小节为基础。 

除了偶尔讨论第1卷中说明的 MIX 计算机外，本书的绝大部分内容都是独立、 
自成体系的。附录 B 包含有对于所使用的数学记号的概述，其中的一些记号同传统 
的数学书中找到的记号有些差别。 


第2版前言 


这个新版本是同第1卷及第2卷的第3版相匹配的。那两卷的岀版用上了 
TEX 和 METAFONT 系统，使我得以庆祝这两个专门为本套书开发的出版系统的完成。 

本书转换成电子格式使我有机会重新检查正文的每一个字和每一个标点符号。 
在添加或许某些更成熟的记述的同时，我试图保留原来文字的朝气。已经增加了数 
十个新的习题，对数十个老习题也给出了新的改进了的答案。变动随处可见，但最 
主要的是在 5.1.4 小节（关于排列和图表 ），5. 3节（关于最优排序）， 5.4. 9小节（关 
于磁盘排序）， 6.2.2 小节（关于熵）， 6. 4节（关于通用散列法）以及 6.5 节（关于多维 
树和检索结构）。 

^然而，《计算机程序设计艺术》的写作仍然是进行中的工作。关于排序与查 
找的研究仍然以非凡的速度发展着。因此本书的某些部分加上了“正在施工”的图 
标以对该部分内容还不是最新表示歉意。例如，如果我今天仍向本科生讲授数据结 
构，我肯定将花些时间讨论像树积 ( trea P ) S # W 随机化 结构； 但在本书中，我只能引 
用有关这个课题的主要文章，告诉大家将来的 6.2.5 小节的写作计划。我的文件夹 
里已充满了许多重要的素材，我打算从现在起用大约17年时间，把这些素材包含在 


前 言 


第 3 卷最后的辉煌的第 3 版中！但是在此之前我必须首先完成第 4 卷和第 5 卷，而 
且除非绝对必要，否则我不想使它们的问世再有任何拖延了。 

我对于过去 35 年来帮助我搜集和改进本书内容的数百位人们表示衷心的感 
谢。准备这一新版本的大部分艰苦的工作是由 Phyllis Winkler (俾把第 1 版的文本 
转换成 TeX 的形式）和 Silvio Levy (他编辑文字并绘制了数十张插图），以及 Jeffrey 
Oldham (他把原来 250 张以上的插图转换成 METAP 0 ST 格式）完成的。 Addison-Wes- 

iey 生产部的同仁们也一如既往地提供了极大的帮助。 

我已经改正了细心的读者们在第1版中发现的，以及天哪，竟无人发觉的那些 
错误，而且，我已竭尽全力试图避免在新的内容中再引进新的错误。然而，我设想， 
某些欠缺之处仍在所难免，我想尽早地改正它们。因此我将很乐意地支付 2.56 美 
元给每一个技术、印刷或历史错误的头一个发现者' 在版权页上所引的网页中包 
含了已向我报告过的所有错误的更正。 

Stanford , California D. E. K. 

1998 年 2 月 
■ 

There are certain common Privileges of a Writer f 
the Benefit whereof, I hope ， there will be no Reason to doubt; 
Particularly 9 that where I am not understood 9 it shall be concluded ， 

that something very useful and profound is coucht underneath. 

一位作者享有某些公认的特权, 
我认为，这件事的好处没有理由加以怀疑; 

特别是，在我还不被人们理解的地方， 

背后蕴涵着某种非常有用和意义深远的东西。 

■ 

—JONATHAN SWIFT , Tale of a Tub ,Preface( 1704) 


^ 中文版已按 2003 年 1 月 25 日的最新勘误表更正了原书的错误。网页 http ：// www . ndip . com . cn / com - 
puter / taocp 上也将列出对中文版的勘误表及从作者处获得的最新信息。——本书责任编辑 


V 


关于习题的说明 


本套书的习题既可用于自学，也可用于课堂练习。无论是谁，如果想纯粹地通 
过阅读，而不将所阅读的信息应用到特定问题上，并由此牵引思考先前阅读的内容， 
就想学到一门学问，纵然可能，那也是很困难的。其次，对于我们自己的发现，我们 
总是领会得最透。因此，习题形成了这一套书的一个重要 部分； 我着意使这些习题 
含有丰富的信息，而且也尽量选择既有趣又有启发性的习题。 

在许多书里，容易的习题被随机地混杂于极端困难的问题当中。有时这是不合适 
的，因为读者预先想要知道一道习题花多少时间——否则他们可能就越过这些习题了 
事。这一情况的典型例子是由 Richard Bellman 所著 ^Dynamic Programming 一书。这 

是一本重要的先驱性的论著，其中在某些章的末尾，在“习题和研究题”的标题下，把一 
组问题收集在一起，而且一些极其平凡的问题出现在一些深入的、还未被解决的问题 
当中。据说，有人曾问过 Bellman 博士，怎样区分习题和研究题。他回答说 :“如 果你能 
解决它，那它就是一道习题，否则它就是一个研究题。” 

但在这一类书里把研究问题和很容易的习题都包括进来确有其 道理； 因此.，为 
使读者免于陷入确定哪是习题哪是研究题的困境，我给习题注明了等级分，以指出 
困难的程度。这些分数大体具有下列 意义： 

分数 解释 

00 一 个极其容易的习题。如果你已理解正文的内容，就可能立即做出 

回答。这样一道题几乎总是可以“眉头一皱”就把它做出。 

10 一 个简单的问题，它要求你去思考刚刚学过的内容，但绝不意味着是 

困难的。你应当有能力在顶多一分钟之内就把它做出。在获得解答 
的过程中可能要用到笔和纸。 

20 一个普通的问题。它检查你对正文内容的基本理解，但你可能需要 

15或20分钟才能完整地回答它。 

30 一个中等难度和/或复杂的问题。这个题目可能需要两个小时以上的 

工作才能令人满意地解决。或者甚至更长时间，如果电视机在开着的 
话。 

40 确实是一个十分困难或冗长的问题。在学校里，它将适合于作为一 

个学期的课程设计。一个学生应当有能力在相当长的时间里来解决 
它，但这个解不会是平凡的。 

50 就作者在编写本书时所知，这是一个还未被令人满意地解决的问题, 

尽管已经有很多人做了尝试。如果你已经找到了这样一个问题的答 


VI 



关于习题的说明 


案，你应当把它写出来发表。其次，本书的作者将乐意尽快地听到关 
于解答的消息（当然，假定它是正确的）。 

通过在这个“对数”尺上的内插，其它分数的意义也就清楚了。例如 n 分将表示 
比普通的题更为简单的一道习题。 一 个随后被某个读者解决了的50分的题在本书后 
来的版本中将以45的分数出现，而且会在互联网上的勘误表中刊岀（参见版权 页）。 

分数除以5的余数表示所要求的详细工作量。因此分数是24的习题可能要比 
分数是25的题花费更长的时间来求解，但后者将要求更多的创造性。 

作者已经认真地试图指定精确的分数，但是提出问题的人要想确切地知道对于 
求解的另一个人，它的难度如何，肯定是困难的；而且每个人都会有较其他人更为适 
应的问题类型。只能希望这些分数较好地反映了习题的困难程度，希望读者把它们 
当做是一般的导引，而不应作为绝对的指标。 

本书是为具有不同程度的数学训练和素养的读者 写的； 因此有些习题是特意为 
有更多的数学基础的读者提供的。如果一道题的出题动机或涉及的数学概念超越 
了主要兴趣仅仅是算法编程本身的读者应掌握的程度，则在分数前边加上 M 。 如 
果一道习题的答案必须涉及在本书中未予提供的微积分或其它高等数学知识，则对 
这道题标以 “ HM ” 的字母。 “ HAT 标记并不必定意味着困难。 

某些习题的前边标有三角符“ ►”; 这一标志说明是特别有启发性的问题，因而特别 
予以推荐。当然，并不期望读者/学生来求解 所有的 习题。所以标出了那些看起来最有 
价值的部分(这并不意味着贬低其它习题!）。每个读者至少应该尝试去解分数是10或 
者更低的所有 问题; 箭头可以帮助指出应该对具有较高分数的哪些问题予以优先考虑。 

在答案部分中已经列出大多数习题的解答，请明智地使用它们。在你已真正地 
做出努力亲自解决问题之前，不要去翻答案，除非你确实没有时间来做这一特定的 
问题。在获得了你自己的解答或者对该题做了郑重的尝 试之后 ，你可能会感到答案 
是有启发和有帮助的。给岀的解答通常十分简短，作者认为你已经认真地通过自己 
的方法做过求解尝试因而略去了其细节。有时解答所提供的信息比所要求的为少， 
但通常都是更多的。十分可能，你有比这里给的更好的答案，或者在答案中你发现 
一个错误。在这样的情况下，作者将乐意知道详细的情况。在本书以后的版本中将 
在适当地方刊登出这些改进了的答案以及提供这些解的人的姓名。 


当做一道习题时，一般地你可以使用前边习题的答案，除非明确地禁止这样做。 
在对习题打分时，已经考虑到这一点了，因此很可能第72 + 1题的分数比第 n 题还 
要低，尽管它把第 n 题的结果作为一个特殊情况包括进来。 


代码含义 

00 

立即可解的 


10 

简单的（一分钟） 


20 

一 般水平（一刻钟） 

► 特别推荐的 

30 

难度适中 

M 面向数学的 

40 

学期设计 

HM 要求“高等数学”的 

50 

研究题 


1 



关于习题的说明 



习 



► l.[00] 分数 “M20 ” 意味着什么？ 

2. [10] 一本教科书中的习题对读者有什么价值？ 

3 . [HM45 ] 证明当 n 是一个整数且 n>2 时，方程 / + /* = ，无正整数 : 的解。 

Two hours’ daily exercise . . - will be enough 

to keep a hack fit for his work. 

每天两小时的训练……将足以 

令一匹马很好地工作。 

— M . H . MAHON,The Handy Horse Book (1865) 
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There is nothing more difficult to take in hond ， 


more perilous to conduct , or more uncertain in its success y 

than to take the lead in the introduction of 


a new order of things 

没有什么比带头建立事物的新秩序更难掌握， 

更担风险，更高深莫测的了。 

— NICCOLO MACH1AVELU , The Pnnce (1951) 


numbers in time ，” Drake objected. 
“ We don $ t hove to ， Paul. We merely arrange a list 

and look for duplications ” 

但是你不能及时查出全部那些执照号”， Drake 争辩说。 

“没有必要， Paul 。 我们只要列一张表，并 

把重复的找出来。” 

— PERRY MASON .in The Cose of the Anqry Mourner (1951) 



Treesort” Computer — With this new ' computer-approoch 

to noture study you con quickly identify over 260 
different trees of U S. , Alaska y and Canada , 
even palms ^ desert trees ， and other exotics 

To sort ^ you simply insert the needle. 

“树排序”计算机 —— 应用这种新的“计算机方法” 

来进行树种研究，你能快速地确认 
260 种以上美国、阿拉斯加和加拿大的不同树种， 
甚至棕榈树、沙漠里的树，以及其它外来树种。 

要想排序，你只须插入这颗针就行了。 

—— Catalog of Edmund Scientific Compony( 1964) 


在这一章里，我们将研究在程序设计中经常出现的一个课题：以递增或递减的 
次序重新排列项目。我们可以设想一下，倘若字典中的词不是以字母的顺序排列， 
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那么使用这样的字典将是何等困难！同样，存在于计算机存储器中的各项的次序， 
对于处理这些项目的算法的速度及简便性来说，也有着重要的影响。 

尽管英语词典里把 “ sorting ” 一词定义为按照种类或类型，分开或安排事物的过 
程，但是计算机程序员习惯于在更为特殊的意义下来使用它，即把事物排成递增或 
递降的次序。这个过程也许应称做 ordering , 而不是 sorting ; 但铎何试图把它称为 
“ ordering ” 的人很快就会导致混乱，因为这个词已被附加了许多:^同的意义。例如， 
考虑下边的句子：“由于我们只有两台磁带机处于工作状态 （working order ) ，我被要 
求 （was ordered ) 去以快速订货的形式 （in short order ) 订购 （ order ) 更多的磁带机，以 
便 （in order ) 以快若干数量级 （ order ) 的速度对数据进行排序 （ order ) ”。在数学术语 
中，“ order ” 的意义太多了（群的阶 ( order ) ，置换的阶 （ order ) ，分支点的级数 （ order ) ， 
次序 （ order ) 的关系，等等）。所以我们可以得出结论， “ order ” 一词容易导致混乱。 

某些人建议用 “ sequencing ” 作为排序过程的适当名称，但是这个词通常缺乏恰 
当的涵义，特别是当出现相等的元素时，而且，它有时同其它术语冲突。实际上， 
“ sorting ” 本身也是一个被滥用了的词（如 ：在对 那一类 （ sort ) 数据进行排序 （ sorting ) 
以后，我有几分 (sort of ) 不快 (out of sorts )) ，但它已经在计算的用语中被确认并使用 
了。因此，我们将把“排序” （ sorting ) —词用于“排成有序”的严格意义之下，而不去 
作进一步的辩解。 

排序的某些最重要的应 用是： 

a ) 解决“一起性”的问题， 即把具有相同标志的所有项目连在一起。假设我们 
有随机次序的10 000个项目，其中许多有相等 的值； 而且假设我们要重新排列数 
据，使得具有相等值的所有项出现在连续的位置上。这实际上是该词传统意义下的 
“ sorting ” 问题； 通过在该词的新意义下对文件排序，可以容易地解决这个问题，使得 
这些值按递增的次序 巧 ‘一《 Aoooo 排好。在这个过程中可能达到的效率，说 

明了为什么 “ sorting ” 原来的意义已经改变。 

b ) 匹配在两个或更多个文件中的项。 如果若干个文件已经按次序排好，则通 
过顺序地扫描一趟它们，就可能从中找出所有匹配的项，而无须返回去查。这是 
Perry Mason 在解决一个谋杀案件时用到的原理(见本章开头的引用 语）。 从开始到 
末尾顺序地遍历一个信息表，而不是在表中随机地来回跳动，通常可以最快速地处 
理一个信息表，除非这个表足够小，可以存人到高速随机存取的存储器中。排序使 
得有可能对大型文件使用顺序存取，从而有可能取代直接寻址。 

c ) 通过键码值查找信息。 如同我们将在第6章中要见到的，排序也有助于査 
找，因此它也有助于使计算机的输出更适合人们的需要。事实上，按字母顺序排序 
的一份清单，往往看上去十分可信，即使有关的数字信息计算得不正确也是如此。 

尽管排序传统上多用于商业数据处理，但它实际上是程序员应当掌握的运用广 
泛的一项基本工具。在习题 2.3.2-17 中，我们已经讨论了它在简化代数公式中的 

用途。以下的习题说明各种各样的典型应用。 

展示排序多样性最初的大型软件系统之一，是由 J . Erdwirm 和 D . E . Ferguson ， 
以及他们在 Computer Sciences Corporation (计算机科学公司 ） 的助手们于1960年开 
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发的 LARCSdentificCompUer (拉克科学编译语言）程序。这个用于扩充的 FOR - 
TRAN 语言的优化编译程序，大量使用了排序，使得各种编译算法同源程序的有关 
部分都以适当的顺序出现。第一遍是词法扫描，它把 FORTRAN 源代码分成单个 
的记号，每个表示一个标志符，或者一个常数，或者一个操作符等等。每个记号被赋 
以若干顺 序号； 当对名字和适当的顺序号进行排序时，一个给定标志符的所有使用 
就联系在一起了。 一 个用户将用之来确定标志符是否代表一个函数名，一个参数或 
一个数组变量的“定义项”，被给予一个低的顺序号，以使它们在具有一个给定标志 
符的诸记号当中首先 出现; 这样，既便于校验一个标志符的使用是否有冲突」又便于 
相对于 EQUIVALENCE 说明符来分配存储。以这种方式收集在一起的每个标志符的 

信息现在附加在每个记号上；这样在高速存储器中就不需要保留标志符的“符号表” 
了。更新过的记号然后按另一个序列号排序，它基本上是把源程序恢复到它原来的 
顺序，只是该序列是特殊设计的，它把算术表达式变成为更方便的“波兰前缀”形式。 
排序也用于编译的稍后阶段，以便于进行循环优化，把错误信息合并到清单当中，等 
等。简言之，编译程序被设计成，使得实际上可以通过顺序地处理存于辅助磁鼓内 
的文件而完成工作，因为适当的顺序号，是以这样一种方式附加在数据上的，即数据 

能被排成各种方便的序列。 

20世纪60年代的计算机厂家估计，当把他们的所有顾客都考虑在内时，在他 
们的计算机上，将有超过25%的运行时间花在排序上。事实上，有许多计算机装 
置，仅其中的排序，就用去计算时间的一半以上。由这些统计，可以得出结论 ：（ i ) 排 
序有许多重要的应用； U ) 当不应当进行排序时，许多人却进行了；（⑴）低效的排序 
算法正被普遍地使用着。实际情形可能包括所有这3种可能性。但无论如何，排序 

都值得作为一个实际问题而认真地加以研究。 

即使排序毫无用处，也仍然有许多理由对它进行研究！业已发现的巧妙算法表 

明，排序本身就是一个值得剖析的极其有趣的课题。在这方面，还有很多有魅力的 

悬而未决的问题，当然也有不少已经解决了。 ' 

从一个更广泛的方面着眼，我们也会发现，对于一般情况下如何着手解决计算 

机程序设计的问题，排序算法即是一个有价值 的实例分析。 在这一章我们将说明数 
据结构操作的许多重要原理。我们将考察各种排序技术的演化，以期向读者指出， 
这些思想首先是如何被发现的。通过外推这一实例分析，我们可以学到许多好的策 

略，来帮助我们就其它计算机问题设计好的算法。 

排序技术也为包含于 算法分 析中的一般思想提供了极好的说明——这些思想 

通常用来确定算法的性能特征，以便在不同的方法之间进行明智的选择。专长数学 
的读者，将在这一章中找到用于评价计算机算法的速度和解决复杂的递归关系的， 
许多有启发的技术。另一方面，由于已对内容做了适当的编排，使得那些并不很擅 

长数学的读者也能跳过这些计算而不受影响。 

在往下进行之前，应该更清楚地来定义我们的问题，并且介绍一些术语。给定 

有待排序的 N 个项目 


R ly R 2 r'' yR 


3 
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我们称这些项目 为记录 ，并称 N 个记录的整个集合为一个 文件。 每个记录&有一 

个键码它支配着排序的过程。在一个记录中，除这个键码外，还可能有其它的信 

息； 这些额外信息，除非必须作为记录的一部分来一起处理，否则对于排序过程没有 
影响。 


在键码上确定一个次序关系“<”，使得对于任意三个键码值 a ，6， c ， 下列条件 


成立: 


• Oa < b , a 二 b , b < a 三个可能性中恰有一个可能性成立（这是三分 律）。 
ii ) 如果 a <6, 而且，则 a < c ( 这是熟知的传递律）。 

性质0和 ii ) 表征了 线性次 序的数学概念，也称做 全序。 任何满足 i ) 和 H ) 的关系 
“<”都可以按本章中即将介绍的大多数方法进行排序，尽管有些排序技术被设计成 
只对具有通常次序的数字或字母键码有效。 

排序的目标，是确定下标为 { 1,2, , N ) M —个排列 p ( l ) p ( N ) ，它以非 

递降的次序来放置所有 键码： 


^/>(D ^ 尺户⑵ < …< K p ( N) ( 1 ) 

如果我们提岀进一步的要求，即具有相同键码的记录保留它们原来的相对次序，则 
称这个排序是稳定的。换句话说，稳定排序有下列附加的性质，即 

p ( i ) p ( j ) 每当 = 且 2 时 （2) 

在某些情况下我们可能要求在存储器中对记录进行物理上的重新排列，使其键 
码成为有序的。而在其它一些情况下，可能仅仅需要一张辅助表以某种方式确定这 
个排列，以便这些记录能根据其键码的次序来加以存取。 

本章中有一些排序方法假定了值“〜”或它们分别地定义为大于或小于 
所有键码： 


- oo < < oo 对于 1 < J < N (3) 

这些极值有时被用做人为的键码，也用做标志 （ sentmel ) 指示器。 （3) 中排除了相等 
的情况，如果出现相等，可以对这些算法进行修改，使得它们仍然有效，但通常要损 
失一些简洁性和有效性。 

排序一般可分为内 部排序和外部排序。 在内部排序中，记录被整个地保留在计 
算机的高速随机存取存储 器中； 当记录比内存一次所能容纳的还多时，则使用外部 
排序。内部排序在构造和存取数据方面具有更多的灵活性，而外部排序则告诉我们 
如何应对更为严格的存取约束。 

利用一个较好的通用排序算法，对 N 个记录进行排序所需要的时间，大约同 
N log iV 成 比例； 我们对数据大约扫描 log A/ “趟”。如同在 5.3.1 小节将看到的， 
如果所有记录的次序随机而且排序是通过键码的两两比较进行的，则这是极小的时 
间。于是，如果把记录的数目加倍，则将花略多于两倍的时间对它们进行排序，而所 
有其它方面不变（实际上，当 N 趋于无穷时，如果键码不同的话，则排序所需时间的 
一 个更好表示是 N ( log N) 2 , 因为键码的大小必须至少以 log iV 的速度 增长； 但对 
于实际使用来说， N 事实上绝不会趋于无穷）。 


•4 • 
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另一方面，如果已知关于某个连续的数值分布，诸键码是随机分布的，则我们将 
看到，平均说来，我们可以在 O ( N ) 步内实现排序。 

习题—— 第一组 

jp 

1 . [ M 20 ] 由三分律和传递律证明，当假定排序稳定时，排列 f ( l ) p ⑵…户 （ N ) 是惟一确定 
的。 

2. [21] 假定某文件中的每个记录&包含两个键码，一个“主键码”和一个“次键码”乂，而 
且每一个键码集合中各定义了一个线性次序<。则我们可以用通常的方式在键码对 （ K ，0 之间 
定义一个字 典序： 

( K iy k - t ) < 如果圪< \ 或 如果二心且々 

Alice 取这个文件，并且首先按主键码对它进行排序，得到”组记录，且对于每组记录，有相同 
的主键码 

〜⑴=…= k pu 1 ) < k 〆 、.。 =…二 k pu 2 ) < *** < …= Kpi \ ) 

其中 i „ = N 。 然后，她按各组的次键码对 n 个组 J^(~_ i + 1) ，…，中的每一个进行排序。 

BiU 取同一个原始文件，首先按次键码进行排序，然后对得到的文件按主键码进行排序。 

Chris 取同一个原始文件，按主键码和次键码（仏，々 ; ）的字典序对它进行一次排序操作。 

问每个人是否得到相同的结果？ 

3. [ M 25] ，…，上的一个关系，它满足三分律，但不满足传递律。证明，即使没 

有传递律，也有可能以一种稳定的方式对记录进行排序，且满足条件 （1) 和 （2); 事实上，至少有3 
个满足这些条件的排列方式！ 

► 4.[2 i ] 实际上词典中并未使用严格的字典序，因为大小写字母都必须参与排列。它们要有 
以下这样一个顺序： 

a < A < aa < AA < AAA < Aachen < aah < ■ • < zzz < ZZZ 

说明如何来实现字典序。 

► 5.[ M 28] 试对所有的非负整数设计一个二进制编码，使得如果把 n 编码为串 〆 ”），则我们 
有 m < n 当且仅当 〆 m ) 按字典序小于 p { n ) Q 而且，对于任何不应是 〆 《)的一个 
前缀。如果可能，对于所有大的”， 〆 〃）的长度应当至多为 lg n + 0( log log rz ) (如果我们要对文 
字和数字混合的文本进行排序的话，或者如果我们要把任意大的字母表映射成二进制串的话，则 
这样一个编码是有用的）。 

6. [ i 5] B . C . Dull 先生（一个 MIX 程序员）要想知道存在于单元 A 中的数是否大于、小于或等 
于存在于单元 B 中的数，所以，他写语句 “LDA A;SUB B ” 并测试寄存器 A 是正，是负或是0。他犯了 

什么严重错误？他应该如何做？ 

7. [17] 按下列说明写出多精度键码比较的 MIX 子 程序： 

调用序列: JMP COMPARE 

入口 条件： rU = « ;对于 \< k<n ， C0NTENTS(A + 々） =以 ,C0NTENTS(B + ^ ^ ; 

假定 n>lo 

出口条件 ： Cl = GREATER ， 如果 （〜 ，…， a ! ) 〉 （ \，…，心 ） ； 

CI = EQUAL ， 如果（〜，…， q ) = ( b n ，…， hh 


•5 • 
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Cl = LESS , 如果 （ ，…，〜 ） < ( 6”，…,; 
rX 和 rll 可能要受影响。 

这里，关系，…， &)<(&„ ，…，心）表示从左到右的字典序；即，对于《>々>)，有一个下标 j ， 使 

得 a 走= 6是，而〜〈 6) 。 

► 8.[30] 单元 A 和 B 分别存放两个数 a 和6。证明，有可能写出一个 MIX 程序，它计算并保存 
min ( a ，6) 于单元 C 中， 而不使用任何转移操作符。 （瞽告 ：由于 你不可能测试是否出现算术溢出， 

所以确保无论是 a 值还是6值都不会出现溢出，是明智的。） 

9.[ M 27] 在 N 个独立地一致分布于0和1之间的随机变量排为非递减顺序之后，这些变量 

中第 r 个最小者小于等于: r 的概率是多少？ 

习题——第二组 


下列每一个习题指出了，在以前计算机还只有较少随机存取内存的时候，计算机程序员所要 
解决的问题。 假设仅有几千字的内存可供利用 ，通过大约半打的磁带机作为补充（对于排序来说 
这些磁带机足够了），试提出解决这个问题的“好”方法。在这样的限制之下工作得很好的箅法，证 


明在现代机器上也是有效的。 

10. [15] 给你一条含有100万个字的磁带。你如何确定该磁带中有多少字不同 

11. [ J 8] 你是美国国内税收服务人员，你收到了来自各单位的数百万“信息”表格，报告他们 


已向人们支付了多少钱；同时，又从人们那里收到了数百万“税收”表格，报告他们已经得到了多少 


收人。你如何发现没有报告他们所有收人的人？ _ _ 

12.[ M 25] (转置一个矩阵）给你一条含有100万个字的磁带，这些字表示按行顺序存储的 


1000 X 1000矩阵的元素： a lf 2 ". a ia _ … a 2 ._ …幻亂麵。你如何建立一条磁带，其中 
元素是按列的次序 a 2 f i * ，， a 1000 ,l <21,2… a lG 0(),2 …存储的（试试看，最多只对数据扫描 


10趟）？ 

13. [ M 26] 你如何把 N 个字的一个大型文件“洗’’成随机排列？ 

14. [20] 你正在用两个计算机系统进行工作，它们对字母数字的排列方式有不同的约定。你 

如何使一台计算机按另一台计箅机使用的次序对字母数字文件进行排序？ 

15. [18] 给你一份出生在美国的附有其出生州名的人员名单，名单上的人很多，你如何计算 

出每个州出生的人数(假设这个名单中每个人只出现一次）？ 

16. [20] 为了易于改动大型 FORTRAN 程序，你需要设计一个“交叉引用”程序；这样一个程 
序以 FORTRAN 程序作为输人，并连同一个索引一起把它们打印出来，索引说明程序中每个标志 

符（即每个名字）的各次使用。你如何来设计这个程序？ 

► 17. [33] (图书馆卡片排序） 在实现计算机化的数据库之前，每个图书馆都有一个卡片目录, 

以便使用者可以找到他们所要的书。但随着图书馆藏书的增加，将目录卡片排序以便于人们使 

用这项工作变得十分复杂。下面的“按字母顺序的”清单指出了 American Library Association Rules 
for Filing Catalog Cards ( Chicago , 1942) 中建议的许多规程： 


卡片的正文 


R. Accademia nazionale dei Lincei, Rome 


注 释 


Ignore foreign royalty(except British) 


1812;ein historischer Roman, 


Achtzehnhundert zwolf 
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Bibliotheque d’histoire revolutionnaire. 
Bibliotheque des curiosites. 

Brown, Mrs. J. Crosby 
Brown, John 

Brown ， John ， mathematician 
Brown ， John,of Boston 
Brown ， John ， 1715 — 1766 

BROWN, JOHN ， 1715—1766 

Brown ， John ， d. 1811 
Brown f Dr. John, 1810 — 1882 

Brown-Williams, Reginald Makepeace 
Brown America. 

Brown & Dallison’s Nevada directory. 
Brownjohn, Alan 

Den’，Vladimir Eduardovich, 1867- 
The den. 

Den lieben sussen Madeln. 

Dix, Morgan, 1827 — 1908 

1812 ouverture. 

Le XIXe siecle fran cais. 

The 1847 issue of IL S. stamps. 

1812 overture. 

I am a mathematician. 

IBM journal of research and development. 
ha-1 ha-ehad. 
la;a love story. 

International Business Machines Corporation 
al-Khuwarizmi $ Muhammad ibn Musa, 

fl. 813—846 

Labour. A magazine for all workers. 

Labor research association 
Labour, see Labor 


Treat apostrophe as space in French 
Ignore accents on letters 
Ignore designation of rank 
Names with dates follow those without 
… and the latter are subarranged 
by descriptive words 
Arrange identical names by birthdate 
Works “about” follow works “by” 
Sometimes birthdate must be estimated 
Ignore designation of rank 
Treat hyphen as space 
Book titles follow compound names 
& in English becomes “and” 

Ignore apostrophe in names 
Ignore an initial article 

砉 

… provided it’s in nominative case 

Names precede words 

Dix-huit cent douze 

Dix-neuvieme 

Eighteen forty-seven 

Eighteen twelve 

(a book by Norbert Wiener) 

Initials are like one-letter words 
Ignore initial article 
Ignore punctuation in titles 

Ignore initial Arabic names 

Respell it “Labor” 

Cross-reference card 
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McCall’s cookbook 

McCarthy , John ，1 927 - 
Machine-independent computer 
programming. 

MacMahon, Maj. Percy Alexander, 

1854—1929 

Mrs. Dalloway. 

Mistress of mistresses. 

Royal society of London 
St. Petersburger Zeitung. 

Saint-Saens, Cami lie, 1835 — 1921 

Ste-Marie,Gaston P 
Seminumerical algorithms. 

Uncle Torres cabin. 

U* S. bureau of the census. 
Vandermonde, Alexandre Theophile, 

1735—1796 

Van Valkenburg, Mac Elwyn, 1921- 
Von Neumann’John, 1903 — 1957 

The whole art of legerdemain. 
Who’s afraid of Virginia Woolf? 

Wijngaarden f Adriaan Van, 1916- 


Ignore apostrophe in English 
Mc= Mac 

Treat hyphen as space 

Ignore designation of rank 
“Mrs. ” = “Mistress” 

Don’t ignore British royalty 

bt. = bamt ， even in German 

Treat hyphen as space 
Sainte 

(a book by Donald Ervin Knuth) 

(a book by Harriet Beecher Stowe) 
“U.S,，，= “United States” 

Ignore space after prefix in surnames 

Ignore initial article 

Ignore apostrophe in English 

Surname begins with upper case letter 


这些规则大多数都有若干例外，而且还有许多其它规则这里未予说明。 

如果你的工作就是用计算机对大量图书馆的目录卡片进行排序，并最终维护这样一个庞大 
的卡片文件，而且你也没有机会去改变卡片归档的这些长期有效的规则，那么你应怎样安排数 
据，以便于进行排序和合并操作？ 

18 ■ [ M 25 ] ( E . T . Parker ) 欧拉曾经猜测 [Abva Acta Acad . Sci . Petropolitanae 13(1795) ,45~63, 
§3; 写于 1778 年]，方程 

+ + UU^ + + 3/6 = 之 6 

没有正整数的解 m , ， I ，： y ，^。同时，他猜测，对于所有的 n ^3 

4 + …+ - x n n 

没有正整数的解。但是这个猜测已被计算机发现的恒等式27 5 十84 5 + 110 5 + 133 5 = 144 5 所否定， 
参见 L . J . Lander , T . R . Parkin 和 J . L . Self ridge , Math . Comp . 21 (1967 )，446 〜 459。后来 ， Noam 
Elkies 又发现了 n =4 时无穷多的反例 [Ah A . Comp . 51 (1988) ， 825 〜 835 ] 。你能否想出一个办 

法，其中的排序将有助于找到当《=6时欧拉猜测的反例？ 

► 19. [24] 给定一个包含大量不同的30位二进制字^的文件，找出其中所有 补码对 
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U ,，&| 的好方法是什么（两个字称为互补的，如果其中一个是0的地方另一个是1，反之 亦然； 于 
是，当它们被处理作二迸制数时，互补的充要条件是其和为（11-1) 2 )? 

► 20. [25] 给定一个含有1000个30位二进制字&，…，:的文件，你如何编制一份所有对 
偶 U , ,5) 的表，使得除最多两个二进数位外，^二&? 

21 . [22 ] 你如何去寻找5个字母的变位词 （ anagram ) ，如： CARET , CARTE , CATER , CRATE , REACT , 
RECTA , TRACE ; CRUEL , LUCRE , ULCER ; DOWRY , ROWDY , WORDY [除值得注意的集合 

APERS , ASPER , PARES , PARSE , PEARS , PRASE , 

PRESA , RAPES , REAPS , SPAER , SPARE,SPEAR 

外（我们也把法文字 APRES 加进去），人们可能希望知道是否有包括10个或更多的5字母变位词 
的任何集合]? 

22 . [ M 28 ] 给定大量的有向图说明，为了按同构进行分组，可用什么方法（如果在有向图的顶 
点之间有 一一 对应，在它们的有向边之间也有 一一 对应，并保持顶点和有向边之间的邻接关系， 
则有向图称为是同构的）？ 

23. [30] 在有4096个人的某人群中，每个人有大约100个相识者。 一 个文件已经列出所有 
相识的对偶（关系是对称的，即：如果同: y 相识，则: y 同2相识。因此，此文件大约含有200 000 
项）。你怎样设计一个算法，对于给定的々，列出这群人当中所有々个人 的团体 （一个团体是互相 
认识的一组人，团体中每个人都与其他人相识）？假定不存在人数是25的团体，因此团体的总数 
不可能很多。 

► 24. [30] 具有不同名字的300万人紧挨着排在一起，从纽约排到加利福尼亚。给每个参加者 
发一张纸条，在这张纸条上写下他自己的名字，以及紧挨着他西侧的那个人的名字。在最西端的 
那个人不知道怎么做，就把纸条 扔了； 剩下的2 999 999张纸条放到一个大篮子中，并送到首都华 
盛顿的国家档案局。在那里篮子中的内容已完全乱了，之后转移到磁带上。 

这时，一个信息学家发现，在磁带上有足够的信息能重新构造原来顺序下人们的名单。一个 
计算机学家也发现，通过对整个数据带进行不到1000次的扫描，即可重新构造此序列，而且此方 
法只对磁带文件做顺序存取，只使用少量的随机存取存储器。要如何做才可能呢？ 

[换言之，对于给定随机次序下的对偶 （2,, x , + 1 ) ，其中，^各不相同，若把所有操 

作限制为适合使用磁带的串行技术，如何得到序列 X\X2''' 这是当没有容易的方法来确定两 

个给定的键码中哪一个在前时的排序 问题； 我们已经把这个问题作为习题 2.2.3-25 的一部分。] 

25.[ M 2 i ] (离散对数） 你知道 j 是一个（相当大的）素数， a 是一个模 p 的原 根。 因此，对于 
1^6< p 的所有6,有惟一的 n 使得 a ” mod p = b y l ^ n < (这个 w 称做关于 a ,6 的模的指 

数）。给定6,试说明，怎样在少于 nU ) 步内找出^ [提 示：设 772 试对0<^，/2 2 <7^求解 

a mnl = ba ~ n ^(modulo p ) ] ? 


x 5.1 排列的组合性质 

有限集合的一个排列就是把它的元素排成一行的一种排法。在研究排序算法 
中，排列具有特殊的重要性，因为它们表示了未排序的输入数据。为了研究不同排 
序方法的有效性，我们要能计算这样的排列数目，即它们引起一个排序过程的某一 
步执行一定的次数。 
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当然，在第1、第2和第3章中我们已经数次涉及到排列。例如，在 1.2.5 小节 
中，讨论了构造72个对象的72!个排列的两个基本理论方法；在 1.3.3 小节，分析了 
涉及排列的循环结构和乘法性质的某些算法；在 3.3.2 小节，研究了它们的“上运 
行”和“下运行' 这一节的目的，是研究排列的其它一些性质，并探讨允许出现相等 
元素的一般情况。在进行这一研究的过程中，我们将大量地学习组合数学。 

排列的性质就其本性来说是非常有趣的，因而，不把其内容分散在整个一章中， 
而在本书中集中系统地研究较为合适。对于不专长数学的读者，以及急于研究排序 
技术的读者，建议他们直接跳到 5.2 节，因为本节实际上同排序的直接联系较少。 




反序 


设 &，〜，•••，、 是集合|1，2, …， 72 | 的一个排列，如果 1<_/， 且则对偶 

( A ，~)称为排列的一个反序（或称反演）；例如，排列3 1 4 2有3个反序：（3,1)，（3, 

2) 和（4,2)。每个反序是“违反排序的”一对元素，所以没有反序的惟一的排列是已 
排好序的排列1 2… 72。 同排序的这种联系，是我们对反序如此感兴趣的主要原因， 
尽管我们已经使用过这个概念来分析动态存储分配的算法（见习题2.2.2-9)。 

反序的概念是 G . Cramer 于1750年在研究他的解线性方程组的著名规则时引 

r 

进的 [ htr . S rAnalyse des Lignes Courbes algebriques ( Geneva : 1750) ， 657 〜 659; 参 
见 Thomas Muir,Theory of DeterrmViarns 1(1906)，11 〜 14]。 实际上 ， Cramer 以下列 

方式定义了 nXn 阶矩阵的行 列式： 


det 



工11 



工 12 




^ ( - l) inV( Y2 …〜) 



对 U ，2, …，72丨的所有排列 q 求和，其中 ， imKq a 2 … 

序个数。 




b 


令~ 为位于 j 左边但大于_；的元素个数，就得到排列〜 

。换言之，6,是第二个分量为 7 的反序的个数。例如，排列 


591826473 


) 是排列中的反 


a n 的反序表心亡 2 



有反序表 

236402210 ⑵ 

因为5和9在1的 左边； 5,9,8在2的 左边； 等等。这个排列全部共有20个反序。 

由定义，数总满足 

0 ^ ^ 72 — 1, 0 ^ ^ ^ — 2, •* * , b n = 0 (3) 

关于反序，也许最重要的事实是简单的发现，即一张反序表惟一地确定相应的 
排列 。 我们可以通过逐次地确定元素 ”，n - 1， …， 1( 按这个次序）的相对位置，从满 
足 (3) 的任何反序表幻6 2 …\返回到产生它的惟一的排列。例如，我们可以构造 

对应于 (2) 的排列如 下：写 下数字9,则因6 8 = 1，所以8跟着9。因6 7 = 2,把7放在 

. 10 • 
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8和9之后。因心= 2,6跟在已经写下的头2个数之后，所以到此有 

9 8 6 7 

继续把5置于左边，因纟 5 = 0;置4在4个数 之后； 置3在6个数之后（即在最右边）； 

我们就有 ^ 

5986473 

类似地插入2和1就得到（1)。 

这个对应是重要的，因为我们经常能把借助于排列叙述的问题，翻译成借助于 
反序表叙述的一个等价问题，而后一问题可能比较易于解决。例如，考虑最简单的 
问题： il ，2, …， n 丨可能有多少排列？回答一定是可能的反序表个数，而这是容易枚 
举的。因为对于心有”种选择，对心独立地有” _ 1 种选择， . ，对\有一种选 

择，所以全部共有 nU -1) … l = n ! 种选择。由于诸6是完全相互独立的，而诸 a 

必须是彼此不同的，所以，反序容易计算。 

在 1.2.10 小节，我们分析了当从右到左读一个排列时，该排列的局部极大值个 

数的 问题; 换言之，我们要计箅有多少个元素大于它们的所有后继（例如， （1) 中从右 
到左的极大值是3,7,8和9)。这个数就是使~有它的极大值（即 n - j ) 的 J 的个 

数。因为心将以 1/ rz 的概率等于” -1， 而^ 将（独立地）以 1/(” -1) 的概率等于 
n -2,等等，显然，由反序的考虑，从右到左的极大值的平均个数是 



n 




十…十1 = 


H 



类似地，也容易导出对应的生成函数。 

如果我们交换一个排列的两个相邻元素，则容易看出，反序的总数将增1或减 
1。图1示出了丨1，2,3,4|的24个排列，及其因互换相邻元素而各异的排列的连线； 
沿任何一条线往下使反序的数目增1。因此 ，一 个排列 t 的反序数是图1中从1 23 

4到 tt 的向下通路的 长度； 所有这样的通路必须有相同的长度。 

顺便指出，图1的这个图形可以看做三维的立体“截八面体”，它有8个六边形 
的面和6个正方形的面。这是阿基米德 （ Archimedes ) 讨论过的均匀多面体之一（见 

习题10)。 

读者应不至于把一个排列的反序同一个排列的逆相混淆。回想一下我们可以 
以两行的形式写一个排列 

1 1 2 3 

^ a 1 a 2 a 3 

这个排列的逆 a 。 是通过交换这两行，而后对各列进行排序，使得新的顶 
上那行按递增次序排列所得到的排列 




CL 2 







2 




a 2 


3 


•拳 ♦ 




(5) 
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1234 


2134 


2314 


3214 


324! 



1423 


4123 


4132 


^^4312 


4321 


1 1 截八面体，它说明当交换排列的相邻元素时反序的变化 


例如，由于 


5 

9 

1 

8 

2 

6 

4 

7 

3、 


(12 

3 

4 

5 

6 

7 

8 

9 ] 

1 

2 

3 

4 

5 

6 

7 

8 

9 1 


(3 5 

9 

7 

1 

6 

8 

4 

2 


所以，591826473的逆是3 5 9 7 1 6 8 4 2。定义逆的另一种方法是说 < =々当 
且仅当 

排列的逆首先是由 H . A . Rothe [Sammlung combinatorisch-analytischer Abhand - 
Jungen ， C . F . Hindenburg 编， 2 ( Leipzig : 1800) ， 263 〜 305] 定义的。他注意了逆和反 

序之间一个有趣的关系:一个排列的逆恰与排列本身有同样多的反序。 Rothe 对这 
个问题的证明不是最简单的，但它是有教益而且还是相当漂亮的。我们构造一个 
n X n 的棋盘，并且每当 \二 j 时就在；行 j 列处点一个圆点。然后，在那些下边（在 

同一列）和右边（在同一行）同时都有圆点的所有正方形中打上 X 。例如，对于5 9 1 
8 2 6 4 7 3的图为 


QI 

B 




■1 

■1 
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QI 


P 

Q 


■ 

Q 
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□1 
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■ 






■1 


B 



B 

Q 
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B 
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Q 
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■ 
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ID 
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■ 
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由于容易看岀，是 ； 列中 x 的个数，所以 x 的个数就是反序的个数。现在如 

果我们把这个图转置一下——即交换行与列——就得到对应原排列的逆 的图； 因 
此，在两种情况下， X 的个数（反序的个数）是相同的。 Rothe 利用这一事实证明，当 
对矩阵进行转置时，矩阵的行列式不变。 

若干排序算法的分析涉及如下知 识：有 多少种 n 个元素的排列恰有々个反序。 
让我们用 LU ) 表示 此数； 表1列出了这个函数开头的一些值。 


表1具有 々个 反序的排列 


n 

Uo) 

/„(D 

L(2) 

U3) 

T ⑷ 

/„(5) 

IJ6) 


IJ8) 

IJ9) 

/„(10) 

IJW 

1 

1 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

2 

1 

1 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

3 

1 

2 

2 

1 

0 

0 

0 

0 

0 

0 

0 

0 

4 

1 

3 

5 

6 

5 

3 

1 

0 

0 

0 

0 

0 

5 

1 

4 

9 

15 

20 

22 

20 

15 

9 

4 

1 

0 

6 

1 

5 

14 

29 

49 

71 

90 

101 

i 

101 

90 

71 

49 


通过考虑反序表~ …，显然有 J „(0) = l , J „( l ) = w - 1，而且有对称性 

质 



( 6 ) 


此外，由于每一个6可独立于其它诸6来选择，故不难看出，生成函数 

G n ( z ) = I n ( 0 ) + l n ( l)z + U 2 )d + … （7) 

满足 G „( Z ) 二 ( 1 + 2 ： + … + / _ 1 ) G „ - i Z ) ; 因此， 它 具有由 0. Rodriguez [7 . de 

Math . 4 (1839),236 〜 240] 所注意到的比较简单的形式 

(1 + 2 ： + …+ ( 1 + Z) ( 1 ) = (1 - 2： W ) *•■ ( 1 - Z 2 )(l - z)l(l - z) n (8) 

由这个生成函数，我们可以容易地推广表1,而且可以验证，该表中锯齿形线下边的 
数满足（这一关系对锯齿形的上边不成立） 

I „( k ) = I n (k - 1) + h - M ), 对于6 < n (9) 

更复杂的论证表明（见习题14)，事实上，我们有公式 


I n ( 2 ) = - 1, 

v 2 1 


72 >2 
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n >3 





一般地说， J „ U ) 的公式包含有大约 1.6/1 项: 





其中，〜= (3j 2 - j)/2 就是所谓的“五边形数”。 

如果把 G „( z ) 除以；2!，则我们就得到了在 n 个元素的随机排列中，反序个数的 

概率分布的生成函数，这是乘积 

g n (z) = h x (z)h 2 (z) … h„(z) ( 11 ) 


其中， /4 U ) = (1+ z + 是小于々的一个随机非负整数的一致分布的 
生成函数。由此得出 

mean ( g n ) = mean (/ i !) + mean ( / i 2 ) + … + mean ( h „)= 



( 12 ) 


war ( g „) = var ( / ij ) + war ( h 2 ) + … + var (/ i „)= 




n (272 + 5) ( n - 1) 

72 


(13) 


所以反序的平均数是相当大的，约为 + n 2 ; 标准差也相当大，大约是 + n 3/2 。 

关于反序的分布的一个重大发现是由 P . A . MacMahon 做出的 [ Amer ， J . Math . 
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35 (1913), 281〜322]。让我们把排列 q 的指数定义为使得屮 > 屮+ i ，1 

< j < n 的所有下标 j 之和。例如，5 9 1 8 2 6 4 7 3的指数是2 + 4 + 6十8 = 20 o 凑 
巧，在这种情况下，指数和反序个数相同。如果列出 il ，2,3,4 l 的24个排列，即 


排 


列 

指数 

反序 

1 

2 

3 

4 

0 

0 

1 

2 

4 

3 

3 

1 

1 

3 

2 

4 

2 

1 

1 

3 

4 

2 

3 

2 

1 

4 

2 

3 

2 

2 

1 

4 

3 

2 

5 

3 


排 列 指数 反序 

3 | 1 2 4 1 2 

3 | 1 4 | 2 4 3 

3|2|1 4 3 3 

3 | 2 4 | 1 4 4 

3 4 | 1 2 2 4 

3 4 | 2 | 1 5 5 


2 | ! 3 4 
2 | 1 4 | 3 

2 3 | 1 4 

2 3 4 | 1 
2 4 | 1 3 

2 4 I 3 I 1 



4 
2 

3 

2 

5 


1 

2 

2 

3 

3 

4 


4 | 1 2 3 
4 | 1 3 | 2 
4 | 2 | 1 3 
4 | 2 3 | 1 
4 | 3 | 1 2 
4 | 3 | 2 1 



4 

3 

4 
3 
6 


3 

4 

4 

5 

5 

6 


则我们看 m ， 有给定指数々的排列的个数，等同于有々个反序的排列的个数。 

乍一看，这个事实几乎是显然的，但是进一步仔细研究，就觉得非常不可思议。 
MacMahon 给出了巧妙的间接证明，如下：设 incKai … ) 是排列 q a 2 … 

的指数，并令对 i 1,2,…， 幻的所 有排列取和的 


Hjz ) = 


(14) 


是对应的生成 函数； （14) 中的求和是对于丨1，2,… ，幻中 的所有排列进行的。我们 
希望证明 H n ( z ) = G n ( z ) 0 为此，我们将定义以非负整数的任意72元组 

…， 为 一 方，和以 M 兀组的有序偶 


(( 〜 a 2 … a„) ，（〜 p 2 … p n )) 

为另 一 方的一一对应，其中 q a 2 …是下标11，2, …， n 丨的一个排列，且 
P » p n >、 这个对应将满足条件 

+ <?2 +••• + <?« = india ^ ， a 2 ，…，+ p 2 + ,a, + p n ) (15) 

对非负整数的所有”元组（ 91 ,<? 2 ,…，^)求和的生成函数2^ 1 + ' 2+> ** + ^为 QmU ) 
= 1/(1- 幻”，而对于满足/ ?1 >；) 2 >〜>久>0的整数的所有》元组（；) 1 ，；) 2 ,“*, 

p n ) 求和的生成函数 D …％,如习题15所示，为 

P n (^) = 1/(1 - ^)(1 -之 2 )… (1 _ Z 71 ) (16) 

依据（15)，我们正要建立的 一一 对应关系将证明即 
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H n ( z ) = Q n ( z)l P n ( z ) (17) 

但由（8)，0„(幻 / P „ (幻为 G „ U )。 

我们通过一个简单的排序过程定义所希望的对应关系：以一种稳定的方式，可 
以把任何 n 元组 （ gnh ， … ，〜）重新安排成非递增的 次序〜 > q a ，> … > q a ，其中 

I 2 n 

a , a 2 是一个排列，根据这个排列，若 1 =1 ，则意味着七<七 + 1 。我们置 

J 〆 1 

ip \， Pi ， …， PnXq a ， q a ，…， q a ) ，然后，对于 l ^ i < ^，且对于每一个 j ，有屮〉 

1 2 n 

七 + 1 ，将 P '， …， pj 中的每一个减 U 这时我们仍然有 九 ，因为每当 
~ > a j + 1 时，巧都严格地大于 p J + i 。 得到的对偶 （（ A ， a 2 , … ， a n 、乂 p '， p 2 , …， p n 、、 
满足 （15)， 因为 f 的总的减少等于 incKq a 2 … a n 、。 例如，如果72=9，且（ 91 ，…， 
g 9 ) = (3， l ，4， l ，5,9,2,6,5)， 则我们可求得 a l -- a 9 = 6 8 5 9 3 1 7 2 

= (5,2, 2,2,2,2,1,1, l)o 

反之，当给出 q …' 和 （ h ， p 2 ，…，九 ） 时，我们能很容易地回到 （ ， 
…，〜）去（参见习题17)。所以，所希望的对应关系已被建立，因此 MacMahon 的指 

数定理得证。 

D . Foata 和 M . P . Schiitzenberger 在 MacMahon 幵创性的著作发表大约65年 
后，发现了对 MacMahon 定理的一个令人惊讶的扩充:有々个反序和指数 Z 的 〃个元 
素的排列数目，和有 I 个反序和指数 k 的排列数目相同。 事实上， Foata 和 
Schiitzenberger 发现了在第一类和第二类排列之间的简单一^一 * 对应（参见习题 25) 。 

习题 


1. [10]排列2 7 1 8 4 5 9 3 6的反序表是什么？什么样的排列有反序表5 0 1 2 1 2 0 0? 

2. [ M 20] 在经典的 Josephus 问题中（习题1.3.2-22)，《个人开始时被安排在一个圆 圈上； 然 
后第 m 个人被枪决，这圆圈收缩，而且重复地消灭每第 m 个人直到全部死光为止。得到的枪决 
次序是 U ，2,...， 77丨的一个排列。例如，当 n = 8 和 m =4 时，次序是5 4 6 1 3 8 7 2;对应于这个排 

列的反序表是3 6 3 1 0 0 1 0。 

当枪决每第 m 个人时，在对于 n 个人的一般的 Josephus 问题中，给出反序表的元素~ 6 2 
… b n 的一个简单递推关系。 

3 . [ 18 ] 如果排列 q 对应于反序表幻6 2 …6，,， 什么是对应于反序表 

(n - 1 - bi)(n — 2 - 62 ) *'* (0 - b „) 

的排列 A 心 … 心？ 

► 4. [20] 试设计适合于计箅机实现的一个算法，它构造对应于满足 （3) 的一给定反序表心办 2 

… b n 的排列 q … a „。 [提示：考虑链接存储 （ linked - memory ) 技术。] 

5. [35] 习题4的算法在典型的计算机上要求大致与 n 十心十…+心成正比的执行时间，因 

此平均说来，为 © U 1 2 3 * 5 )。 考虑是否有算法，其最坏运行时间要比〃 2 阶好得多。 

► 6.[26] 设计一个算法，它根据 U ，2, …， 的一个给定排列 q 〜…〜，计算其反序表心6 2 
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…，其在典型计箅机上的运行时间基本上同 n log n 成比例。 

7. [20] 除了本书定义的特殊反序表心 6 2 …\夕卜，还可以定义若干其它类型的与|1，2, 

…， nl 的给定排列 q 相对应的反 序表； 在本题中将考虑在应用中出现的三种其它类型 

的反序表。 

设^；，是其第一个分量为的反序的个数，即 J / 右边小于 j 的元素个数[对应于 （1) 我们有表 
0 0 0 1 4 2 1 5 7;显然 0< c )< j ]。 令 B . = b a ， C 」= c a 。 

J J 

证明，对于 l <；< n ，有 0 <马<)和再证明，当给定 c , c 2 …^或仏仏… 
B „ 或 Ci … C „ 之一时，可惟一地确定排列 q … 

8. [ M 24] 继续使用习题7中的符号，设… < 是排列…、的逆，并设对应的 
反序表为 b \ … … 〆 „，以…和 G C ' 2 … C % 尽你所能，找出在 a ) ， bj ， 
c Jf B Jt C Jf a ； f b ； iC ； f B ； f C ； 之间的许多有趣的关系。 

► 9.[ M 21] 在习题7的符号下， 证明： 当且仅当对于，有 b 广 C ) 时 ， q 是一 

个卷积（即它自己的逆）。 

10. [ HM 20] 把图1当做一个三维的多面体。如果它的所有边都有单位长度，试问截八面体 
的直径（顶点1234和顶点4321之间的距离）是多少？ 

11 . [ M 25 ] 如果；…<^是11，2,-",«1 的一个排列，设 E ( tt ) - \( a- t y aj ) | i , a { > 

是它的反序集合，并设 

E ( k ) = {( a it aj ) I i > j y a x > a } \ 

是那些“非反序”。 

a ) 证明 EU ) 和它 U ) 是传递的（有序对的一个集合 S 称为是 传递的 ，如果每当 U , 6 ) 和 （ 6 , 
c ) 都在 S 中时，则 U , c ) 在 S 中）。 

b ) 反之，设£是丁= |(: r ,： y 〉 | l <： y <_ r < n 丨的任何传递的子集，它的余集了\ £也是传 
递的。证明存在一个使 EU ) = £ 的排列 7 T 。 

12. [ M 28] 继续使用上题的符号，证 明： 如果；^和 ； r 2 是排列，且如果£是包含 EUJU 
£ U 2 ) 的最小传递集合，则 E 是传递的。[因此，如果每当 EUDGEUd 时，我们说；^在 ； r 2 “上 

面”，这就定义了排列的一 个格; 在两个给定的排列“上面”，有惟一的“最低”排列。图 1 是当 n =4 
时格的图式。] 

13. [ M 23] 众所周知，行列式展开中有一半的项有+号，有一半的项有-号。换言之，当 

2 时，具有奇数个反序的排列和具有偶数个反序的排列一样多。试证明，一般情况下，当 n>m 
时，不管整数 r 为何，反序个数模 m 同余于 【的排 列数目为 n ! / m 。 

14. [ M 24 ]( F . Franklin (富兰克林 ）） 把 n 分成々个不同部分的分划可用式 w = h + /> 2 +…+ 

Pk 表示，其中，/ > i 〉/> 2 〉 …〉 九〉0。例如，把7分成不同部分的分划为：7,6 + 1，5 + 2,4 + 3,4 + 2 
+ 1。设/ 〆 〃〉是把 n 分成々 个不同部分的分 划数； 试证明：除非对于某个非负整数 j , n 的形式为 

(3尸± ; )/2,我们总有 2/- ^) 2 fk ( n ) = 0;否则，和数是（- IV 。例如，当 rz = 7时，和数是 -1 + 

3 - 1 - 1 ，而且7 = (3/2 2 + 2)/2[提示：把一个分划表示成点的一个阵列，对于1<纟<々，置/>,. 

个点于第；行中，试求使得岛 +1 < Pj - l 的最小的 j ， 并把头 J /行最右边的点圈出。如果 j <九，则 

这 j 个点通常可被移走，把它们转45°，并作为新的第 A + 1行放下。另一方面，如果 j >九，则第々 

行的点通常可移走。把它们转45°,并放置到圈出点的右边（见图2)。这一过程在大多数情况下，把 
有奇数个行的分划同有偶数个行的分划配成对,所以在和式中仅需考虑未配对的分划。] 
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图2具有不同部分的分划之间的富兰克林对应 


注; 作为一个推论，我们得到欧拉公式 


(1 - z)(l - 


Z 


)(1 - 


Z 


) … =1 _ 2： _之2十之5 十之 7 — z l 2 _ z 15 


+ • • • = 



_ 1) 


■ 2 


+))/2 


Z 


— OO < J < CO 


对于通常的分划（它们的各部分不必是不同的）的生成函数为 YjP ( n ) z n = 1/(1- z)(l - 


Z 


2 


)(1 


P ) …； 因此，我们得到分划数的一个不显然的递推关系式 

pin ) = p(n - 1) + p(n — 2) - p(n — 5) - p(n - 7) + 

pin ^ 12) + p(n + 15) - ■- 

15 -[ M 23] 证明 （16) 是对于至多分成《个部分的分划的生成函数。即 


证明在 


/) 中，的系数是写 


Pl + P 2 + 


m m m 


[提示：如在习题 14 中那样画点，证明在 w 元组，…， 

一一 对应，并具有性质 


的方式个数，其中 p \»“» 0 
…，久 ）（ /和序列 




A 十 


P 


2 


+ _ p 3 + 


■ 4 ■ 


o 


换言之，分成至多 n 个部分的分划对应于分成不超过 n 的部分的分划。] 


16. [ M 25]( L . Euler ) 借助分划来解释下列恒等式两边，以证明 它们: 



1 


k >0 


(1 - q k z ) (1 - z)(l - qz)(l - q 2 z ) … 



z 


+ 


z 


2 


q 


(1 - q)(l - q 2 ) 






(1 - q k ) 


n^O 




1(1 + q k z ) 二 (1 + 2：)(1 + qz)(l + q 2 z ) … 




k>0 



z 


+ 


z 


1 


Q 


(1 - q)(l - q 2 ) 


+ 


% m m 


5 >v u_1) ’ 2 / IT a - Q k ) 

17. [20] 在本节末定义的 MacMahon 对应中，使 （ a ，户 2 ， p 3 ，/> 4 ) = (0,0,0,0)的24个四元组 

( ，<?2，93， 94) 是什么？ 

18. [ M 30]( T . Hibbard , CACM 6 (1963),210) 令 n > 0,并设2” 个《 位二进整数 X 。，…, 
叉^^的序列已经随机地生成，其中每个数的每一个二进位独立地以概率^等于 u 考虑序列 Xo 
㊉ 0，&@1,…，;^_ 1 ©(2”-1)，其中，©为对二进表示取“异或”运算。于是，如果 p = 0, 则该序 

列为0,1，…，之” _ 1，而且如果 p = 1,则该序列为2” _ 1，".，1,0;当夕=^■时，这个序列的每个元 

素是0和2” - 1之间的一个随机整数。对于一般的 p , 这是生成有偏倚的反序个数的随机整数序 
列的一个有用的方法，尽管整体上序列的元素分布在下述意义上是一致的，即每个„位二进整数 
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有相同的分布。作为概率的一个函数，在这样一个序列中反序的平均个数是多少？ 

19 . [ M 28 ] ( C . Meyer ) 当 m 与《 互素时，我们知道，序列 （m mod n ) (Jim mod n )''• ((n — 1) 

TTi mod n ) 是 |1，2, …， 77-1 丨的一个排列。证明这个排列的反序的个数可以用戴德金和数来表达 
(参见 3.3.3 小节）。 

20 . [ M 43 ] 下面这一属于雅 p 」 比的著名恒等式 [Funcfamenta Nova Theoriee Functionum Ellipti - 
carum (1829) ， § 64] 是涉及椭圆函数的许多值得注意的关系式的 基础： 

J[(l~ uV _1 )(l - W)(1 - M V)= 

k ^\ 


(1 — W )(1 - — uv)(l — u 1 v){\ — uv 2 )(\ — … = 

1 — (u + v) + (u^ V + uv^) — (w 6 i 3 + m 3 d 6 ) + •••= 


2 (- D 』)，） 

< 〆 +°° 

例如，如果置“ = z，i = 2 2 , 我们可以得到习题 14 的欧拉公式，如果我们置 z = ^ J~ v ，q = 

，则得到 

1X ( 卜 q 2k ~ X z)(l - q 2k ~ l z~ l )({ - q 2k ) =2(- 

1 - CO < 7 t < OO 

是否有雅可比恒等式的一个组合证明，该组合证明类似于习题 14 中特殊情况的富兰克林证 
明？（因此我们要考虑“复数分划” 

m + n\ = (p l + q { [) + ( p 2 + (? 2 i) + ••* + (Pk + Q^) 

其中巧 + 0 是不同的非零复数，岛和％是非负整数且 | 巧-幻 | <1。雅可比恒等式指出 j 为偶 

数的这样的表示个数和々为奇数的个数一样，除非 m 和《是连续的三角形的数。）复数分划有什 
么值得注意的其它性质？ 

► 21.[ M 25] ( G . D . Knott ) 试证明在习题 2.2.1-5 或 2.3.1-6 的意义和习题7的符号下，当且 
仅当对于 + i + l 时，排列 q …可通过一个栈得到。 

22.[ M 26] 给定11，2,…， "| 的一个排列 ai …^。令\是使得〜6 U ; + 1, 

屮+ 2,…，七 + 1 1 的下标 i < j 的个数（如果屮 + 1 <七，这个集合的元素从绕回”到1。当 _；■ = w 
时，我们使用集合丨〜+ 1，〜+2, …， W |) D 例如，排列5 9 1 8 2 3 4 7 3导致 / m …= 0 0 1 2 1 

4 2 4 6 o 


a ) 证明 q a 2 …〜可由数 h / i 2 …重新构造出来。 

b ) 证明 h + / i 2 +…+是 q a 2 …的下标。 

► 23.[ M 27] (俄 罗斯轮盘赌） 一组较之数论来说更喜欢概率论的应受惩罚的 n 个人，坐成一个 
圆圈，然后修改 Josephus 方法（习题 2) 如下：头一个囚犯握住一支枪并瞄准自己的头部，他以概率 
/>死去并离开这个圈子，然后第二个人以相同的方法拿起枪继续进行。这个游戏循环地继续，并 
且有常数概率/>>0,直到每个人都死去为止。 

如果々这个人是第个死去者，则令 a ^ k 。 试证明死亡的次序 q 以这样一个概 

率出现，即它仅仅是？2，/?和对偶排列 （72 + 1 - a „ ) *■* ( « + 1 - a 2 )( ^ + 1 _ a !) 的下标的函数。什么 
死亡的次序的可能性最小？ 

24 . [ M 36 ] 给定整数 〆 l ) r (2) … 〆 ； z ) 且 〆 _；)>_；• ，一 个排列 ai 々…〜的推 广指数 是使得 
a ,> r (〜 + 1 ) 的所有下标之和，加上使得 i < j 和七）>屮> 七的反序的总数。于是对于 所有夂 

当 t ( j )= j 时，推广指数和指数是一样的。但当对于所有时，它是反序的数目。试证 
明其推广指数等于々的排列的个数和有々个反序的排列的个数相同。[提示 ：证明 ，如果我们取 
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U , …， 〃- li 的任何排列 q …，并且把数〃插入到所有可能的位置，通过在某个次序之下 
的数10,1，11，我们可以增加推广指数 J 

► 25 ■ [ M 30 ] (Foata 和 SchUtzenberger ) 如果 0 ： = ^ … a ” 是 一 个排列，令 ind ( a 〉是它的指数， 

invU ) 统计它的反序。 

a ) 定义 U , …， 刹的每个排列 a 到排列/ ㈤ 的 一一 对应关系，其中 / U ) 有以下两个属性 ：（ i ) 
ind (/( a )) = inv ( a ) ; ( ii ) 对于<«，数 j 出现在 /( a ) 中 j + 1 的左边，当且仅当它出现在 a 中 
J + 1的左边。当 a = 198263745 时你的构造指定什么排列到 /( c )? 对于什么排列 a , 有 
f ( a)=l 9826374 5?[提示 ：如果 ”>1，写《 =々叫 x 2 a 2 …： c 抑〜 ，其中如果 q <〜，则 

■2^ ，…， A 全是小于的元素，否则 Xy y '' k y X n 全是大于〜的元素；其它的元素出现在（可能是 

空的）串〜 ，…， 以中。比较 / lU ) = : mm 到 inv ( a ) 的反序的数目；在这个构造中数〜 


不出现在 / zU ) 中。] 

b ) 使用/来定义另一个 一一 对应关系 g ， 它有以下两个属性 ：（ i ) \ nd ( g ( a )) = inv ( a );( ii ) 

inv (^( o )) = ind ( ar ) [提示：考虑逆排列]。 

26 . [ M 25] 什么是反序的个数和一个随机排列的指数之间的统计关联系数（参见等式 3.3.2- 
(24))? 

27. [ M 37 ] 证明，除了 （15) 之外，在 inv ( a t a 2 …和 n 元组 （<?i ，^ 2 ，…，9„)之间有一个简 
单的关系。使用这一事实来推广 （17) 的推导，并得到双变量生成函数的一个代数 特征： 


H n (-w f z) 



U) 


inv( a ^ a^ tm 


z 


ind{ a 


n 



其中这个和是对于所有的 《! 个排列 a , a 2 来进行的。 

► 28.[25]( R . W . Floyd ,1983) 如果 a , a 2 … '是 U ，2,…，”丨的一个排列，它的总位移 （Total 


Displacement ) 被定义为 ~j \ ，试借助于反序的数目，求总位移的上限和下限。 

29 . [28 ] 如果疋=^以 2 且 〆 = a 、 是 1 1,2 ,…， m 1的排列，它们的乘积 tttt ' 

为 a 〗 a : … a : 。设 inv (7 r ) 如同在习题25中一样，表示反序的数目。试证明 inv ( tt 〆Xinv ( tt ) 

1 2 n 

+ inv (，）， 而且等式成立当且仅当在习题 12 的意义下 rr〆 是在 〆 “之下”。 


# 5.1.2多重集合的排列 


至此我们已经讨论了一个元素集合的 排列； 这仅仅是多重集合排列概念的一种 
特殊情况（一个多重集合和一个集合一样，只是它可以具有重复的相同元素。在习 
题 4.6.3-19 中已经讨论了多重集合的某些基本性质）。 

例如，考虑多重集合 


M = \a 9 a y a y b,b 9 c,d y d y d,d\ ( 1 ) 

它包含 3 个 a ，2 个 6，1 个 c 和 4 个 d 。 我们也可以用另外的方式来表示元素多重 
性，即 

M = | 3 *< 2 , 2 * 6 , c , 4 *^| ( 2 ) 

M 的一个排列 > 也是它的元素排成一行的一种排法，例如 


* 排列 （ permutation ) 有时称为 permatution 。 - 原注 
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cabddabdad 

从另一个观点来看，我们又称它为包含3个 a ，2 个 6，1 个 c 和4个 d 的字母串。 

M 有多少可能的排列？如果我们把 M 的元素都当做不同的，通过给它们置下 
标〜，^，〜，/^，/^，^，^，^，^^，^^，则将有⑺！ =3 628 800个排列。但是当去 

掉这些下标时，它们当中有许多实际上是相同的。事实上， M 的每个排列恰好出现 
3!2!1!4! =288次，因为我们可以由 M 的任何排列开始，以3!种方式对 a 置下标， 

(独立地）以2!种方式对6置下标，以1种方式对 c 置下标，以及以4!种方式对 d 
置下标，因此 M 的真正排列个数为 

101 

3!2! l !4! = 12 600 

一 般说来，通过相同的论证，我们能看到，任何多重集合的排列个数是多项式系 
数 


n K 〃！ ⑶ 

\n n n 2 r r ' / ” 1 !" 2 !… 、’ 

其中；是一类元素的个数，是另一类元素的个数，等 等； 且 n = n { + n 2 +…是元 
素的总数。 

人们掌握一个集合的排列个数已有 1500 余年的历史。犹太哲学神秘主义的最 

早文字著作， Hebrew (希伯莱）的 Booic o/ Creation (大约公元 400 年），就给出了头 7 

个阶乘的正确值。在给出此值后，该书说“继续往下就会得到嘴不能说和耳不能听 

的数了 [Sefer Yetzirah ，第 4 章结尾。请见 Solomon Gandz,Studies in Hebrew As ¬ 
tronomy and Mathematics (New York : Ktav, 1970),494 — 496; Aryeh Kaplan , Sefer 
Yetzirah ( York Beach , Maine : Samuel Weiser, 1993) 。 ] 这是历史上第 一^ 个已知的排列 

的枚举。第二个出现在印度经典的 AnuyogadvJra-sutra (约公元 500 年），规则 97 ， 对 
于既不是递增顺序也不是递降顺序的6个元素的排列的个数，给出公式 


6x5x4x3x2xl-2 

[参见 G . Chakravarti , Bull . Calcutta Math . Soc . 24 (1932 )，79 〜88。 Anuyogadvara - 

sutra 是耆那教规许多书中的一本，该教是在印度兴盛起来的一个宗教派别。] 

多重集合的排列的相关公式似乎最初出现于 Bhascara Acharya 的 L/Mvaff (大约 
公元1150年），270〜271中。 Bhascara 以稍微简洁的方式指出这个规则，而且仅仅 
以两个简单的例子 j 2,2， l ， ll 和|4,8,5,5,51来说明它。结果，他的著作的英文翻译 
并不都能正确地指出该规则，尽管很少有人怀疑 Bhascara 是否真知道他在谈论什 
么。对于20个数48555 + 45855+…之和，他曾经给岀了有趣的公式 

(1+ 8 十 5 + 5 + 5) x 120 x 11111 

5x6 

当只有一个元素被重复时，计算排列数的正确规则是由德国耶稣会学者 

Athanasius Kircher 在他关于音乐的长篇论文 [Musurgia Universalis 2 ( Rome , 1650) , 

5〜 7] 中发现的。他对一个给定的音符集合所能作成的曲调数目很感兴趣，所以，他 
设想了他所谓的“音乐算术”，即从给定音符的给定汇集中作出的变调个数。在他论 
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文的18〜21页中，对于若干个 m 和 w 的值，他正确地给出了多重集合 
Dt 的排列个数，尽管他没有揭示除 n = 1之外他的计算方法。 

随后，一般的规则 （3) 出现于 Jean Prestet 的论文 foments c/e Mathematiques 

( Paris : 1675) ，351〜352中。该书是西方世界写得非常早的解说组合数学的书之 
一。 Prestet 正确地叙述了一般多重集合的规则，但是仅以简单的情况 U ， a，H 
c ， c 丨来说明它。他特别指出，除以阶乘之和的方法，已行不通了，他认为这种除法是 

K ire her 规则的自然的推广。几年之后 ， John Wallis 在 Discourse of Combinations 
( Oxford : 1685) 的第 2 章（与他的 Treatise o / Algebra 一 同出版），给出了对这 一 规则 

的更详细的讨论。 

1965年 ， Dominique Foata 引进了称为“插入乘积”的一项新颖的思想，使得有可 
能把关于通常排列的许多已知结果，推广到多重集合排列的一般情况[见 R / bi . h - 

st . Statistique , Univ . Paris , 14 (1965)，81 〜 241; 也见 Lecture Notes in Math . 85 

( Springer , 1969)。] 假定一个多重集合的元素是在某种方式下线性有序的，我们就可 
以考虑 两行的表示法 ，例如 

/aaabbcdddd\ 、 

\cabddabdad! 

其中，上面一行包含以非减次序排好序的 M 的元素，而下面一行是排列本身。 
两个多重集合排列 a 和^的插入乘积 a 定义 如下： U ) 以两行表示法表达《和 

( b ) 连接这些两行的 表示； （ c ) 把这些列排序，使上行成为非减次序。这个排序应在 
这样一种意义下是“稳定的”，即：当上面一行的对应元素相等时，下面一行元素自左 
至右的次序应被保持。例如， cada 心 jb d d a d = c a b d d a 因为 



(5) 

( 6 ) 

⑺ 

( 8 ) 


其中 < 是零排列，即空集的“排法”。一般情况下，交换律不成立（见习题 2), 但我们 
有 

a T ^ a 如果 a 和; 3没有公共字母 (9) 

按类似的方式，我们可以 把轮换 ( Cycle ) 的概念推广到元素重复的 情况; 令 

(Xi 22… a„) (10) 

表示以一种稳定的方式,根据其顶部的元素把 
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的列进行排序，所得到的两行形式的排列。例如我们有 


(dbddacaabd) = 


dbddacaabd 

bddacaabdd 



a a a b b c d d d d\ 
cabddabdadi 


所以，排列 （ 4 ) 实际上是一个轮换。可以这样描述一个轮换，比方说 变为 b 变为 d 
变为 d 变为 . 变为 d 变回来”。注意，这些一般的轮换不具有通常轮换的所有性 

质 ； （A •••：?：„) 不总是和 （: r 2 …— 样。 

在 1.3.3 小节就注意到，一个集合的每个排列可以惟一地（在不计次序的意义 
下）表示为不相交轮换的一个乘积，其中排列的“乘积”由一种合成规则定义。容易 
看岀，不相交轮換的乘积完全等同于它//7的插 A 乘积； 这提示，们，能够推广以前的 
结果，把一个多重集合的任何排列（在某种意义下）惟一地表示为轮换的插入乘积。 
事实上，至少有两种自然的方式来做到这一点，每一种都有重要的应用。 

等式 （ 5 ) 说明了把 cabddabdad 分解为较短排列的插入乘积的一条途径; 
让我们考虑求岀一个给定排列 7 T 的所有分解 7 T = a 丁/3的一般问题。当研究这个分 

解因子问题时，考虑一个特殊的排列是有帮助的，例如考虑 


laabbbbbcccddddd 

7T 二 

\dbcbcacdaddbbbd 



如果我们能以形式 a 来写这个排列，其中《至少含字母 a —次，则 a 的两 

行记号的上面一行中，最左边的 a 必须出现于字母^之上，所以 a 至少也包含字母 
d 的一次出现。如果现在观察《上面一行中最左边的 1 则同样看到它必须岀现于 
字母 d 之上。所以， a 必须至少含有两个 d 。 考察第二个 A 我们看 到乂也 必须含 
有一个 6 。在仅仅假定 a 是 tt 的一个含有字母 a 的左因子之下，有部分结果 


a 



a 



d 


d d 



d b 


(13) 


以同样方式继续进行，发现 （13) 上面一^彳 " T 中的6必须出现于字母 c 之上，等等。最 
后，这个过程将再次达到字母 a ， 并且可以认为这个 a 就是头一个 a ， 如果我们选定 
这样做的话。刚才的论证实质上证明了 （ 12 ) 的含有字母 a 的任何左因子 a ， 有形式 
(d d b c d b b c < 2 ) 70 : ，其中，(/ 是某个排列。（把 a 写在这个轮换的最后而不是最 

前边比较方便。由于仅有一个 a ， 这是允许的 J 类似地，如果假定 a 含有字母 6 ,则 
我们就会导岀 a = 其中 a 〃是某 个排列。 

一般说来，这个论证表明，如果我// 7 有任何因子分解 a T 卩 = tt ， 其中 a 含有一个 


给定的字母 y ， 则有形为 

(工 1 … 工』， r'' yOc n ^ y (14) 

的惟一轮换，它是 a 的一个左因子。 当给定； r 和 y 时，这个轮换容易 确定； 它是 r 的 
含有字母: y 的最短左因子。这项发现的推论之一是下面的定理。 
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定理 A 设多重集合 M 的元素对于关系“ < ”线性有序。 M 的每个排列 k 可惟 
— '地表疋为下列插人乘积: 

7 T =(工 11 …工 i 、： Vi ) T (工21."工2、：^2) T …丁 ( x t -' x tn y t ) y t >0 (15) 

且满足下列两个条件 : 

: yi < h …% 

yi ^ X ij > 对于 1 < 1 ^ i ^ t (16) 

(换 句话说，每个轮换中最后的元素小于其它元素，并且最后元素的序列是按非减次 
序排列的。） 

证明如果 7 T = G 则我们通过令而得到这样一个因子分解。否则令％ 
是被排列的最小 元素； 而且如上面的例子那样，我们来确定 7 T 的含％的最短左因子 
( WAr ^ i )。 现在，疋 = (工11"_11； }1 3 ; 1)7'/0，其中| 0 为某个排列；通过对长度施行 

归纳法，可以写出 

f > 二 (工21 …工 )2) T … T ( Al . U ) ， Z > 1 

^ t 

它满足 （16) 的条件，这就证明了这样一个因子分解的存在性。 

反之，来证明满足 （16) 的表示 （15) 是惟一的。 显然， £=0,当且仅当； r 是零排列 

G 当£>0时， （16) 意味着％是被排列的最小元素，而且…:是含有 A 
的最短左因子。因此，（: r u 是惟一确 定的； 由消去律 （7) 和归纳法可知，这 
个表示是惟一的。 ■ 

例如，若则满足给定条件 （12) 的“典型的”因子分解，是 

(ddbcdbbca) y (b a) y (c d b) y (d) (17) 

说明这样一点是重要的，即我们实际上可以把这个表示中的圆括弧和 T 都去掉, 

而不致引起二义性！每个轮换恰在剩下的最小元素头一次岀现之后结束。所以这 
个构造把排列 

k ~ ddbcdbbcabacdbd 

同原来的排列 

7r = dbcbcacdaddbbbd 

联系在一起。当； r 的两行表示有形如$的一个列（其中时，相关联的排列 

就有一对应的相邻元素对偶… M …。因此，我们的例子的排列 tt 有形如 f 的3个 
列，/就有对偶必的3次岀现。 一 般地说，这个构造建立了下列值得注意的定理。 

定理 B 设 M 是一个多重集合，在 M 的排列之间存在一个 一一 对应，使得如果 
7 C 对应于 K ' ， 则下列条件成立： 

a ) K ' 最左边的元素等于 K 最左边的 元素； 

b ) 对所有满足 x<y 的排列后的元素对偶 (: ) ， 在 ; T 的两行表示法中的列 i 
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出现的次数 ，等于在 K ' 中 y 直接在: c 之前的次数 。 ■ 

当 M 是一个集合时，这实质上就等同于我们在靠近 1.3.3 小节结尾处讨论的 
“不寻常的对应”，只有一些不重要的变化。定理 B 中的更一般的结果对于枚举特殊 
类型的排列是十分有用的，因为以两行约束为基础来解决一个问_题，比起以一个相 
邻对偶约束为基础来解决等价的问题，通常要更容易些。 

P. A. MacMahon 在其卓作 Combinatory Analysis 1 ( Cambridge Univ. Press, 

1915) ,168 〜 186 中考虑了这种类型的问题。他对 M 仅含两种不同类型的元素 
——比如说 a 和6——的特殊情况，给出了定理 B 的一个构造性证明。对于这种情 
况，他的构造本质上同这里所给出的是一样的，尽管他的表达形式十分不同。对于 
3 种不同元素 a ， b ， c 的情况， MacMahon 给出了定理 B 的一个复杂的非构造性的证 
明；一^般的情况是由 Foata 第一^个构造性地证明的 [Comptes Rendlus Acad . Sci . 258 

( Paris ,1964),1672-1675] 0 

作为定理 B 的一个非显然的例子，让我们来求恰巧含有 

A 字母 a 的 A 次出现 
B 字母6的 B 次出现 
C 字母 c ■的 C 次出现 
k 相邻的字母对偶 m 的々次出现 
L 相邻的字母对偶 M 的 Z 次出现 

m 相邻的字母对偶仏的 m 次出现 (18) 

的字母 a ， 纟， c 的串数。本定理告诉我们这等同于形如 



A 




U 



A - k - m 


U •… U 




m 





B-l b j s l b j s 


(19) 




C C f s 


的两行数组的个数。这些 a 可以以 


/ A \ 

\A - k ~ m I 



种方式放置在第二 行中； 然后诸 6 可以以 
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种方式放置在剩余的位置上。剩下的空位置必须以诸 c 来 填上； 因此所求的数目是 



B \ IC\IB 十 k 


m I \ k 


\B - l 



( 20 ) 


让我们回到求出一个给定排列的所有因子分解的问题。是否存在一个“素”排 

列，即除开它本身和 f 夕卜，没有插入乘积因子的排列？定理 A 之前的讨论很快地给 
我们导出了结论， 即：一 个排列是素的，当且仅当它是一个无重复元素的轮换。因 


为，如果它是这样一个轮换，则我们的论证证明，除开 f 和它本身之外没有左因子。 
而且如果一个排列含有一个重复的元素3；，则它就有一个其中 y 仅出现一次的非显 
然的轮换左因子。 

一个非素的排列可以被分解成越来越小的块，直到它已被表达成素排列的乘积 
为止。其次，我们可以证明，如果忽略可交换的因子的次序，则这个因子分解是惟一 
的。 


定理 C 一个多重集合的每个排列都可以写成一个乘积 

汀1 T 汀2 T … T t ^ 0 (21) 

其中，每个~是没有重复元素的一个轮换。在下面的意义下，这个表示是惟一的，即 

同一排列的任何两个这样的表示，可以通过逐次地交换相邻的不相交轮换对偶的办 
法彼此转换。 

“不相交轮换”这一术语意味着没有公共的元素。作为该定理的一个例子，我们 
可以验证，排列 

faabbccd 、 

\b a a c d b c i 

恰有 5 种分解为素因子的方式，即 

i,a b) y (^) t (c d) -p {be) = (a b) -p (c d) -p (a) -p (be) — 

(a b) T (c d) T (b c) T (a)= 

(c d) T (a b) T (b c) T (a)= 

(c d) j (a b) j (a) j (be) (22) 

证明我们必须证明，所述的惟一性成立。通过对排列的长度用归纳法，只需 
证明 ：如果 f 和 (7 是没有重复元素的不相等的轮换，且如果 

P T ^ 。 T P 

则广和5是不相交的，而且对于某个排列 I 有 

a = a 了 d , p = p j d 

如果 y 是轮换 p 的任何元素，则含有元素 3 ； 的^ T /? 的任何左因子，必然含有 p 

作为一个左因子。所以如果^和 0 有一个公共的元素，则 a 是^的一个 倍数； 因此 a 
= 〆 因为它们是素的），这同我们的假定矛盾。故含有^且同 J 没有公共元素的轮 
换，必然是的一个左因子。通过使用消去律(7)，这个证明就完成了。 ■ 

作为定理 C 的一个例子，我们考虑由 A 个个 6 和 Ctc 组成的多重集合 
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M = 的排列。设 N ( A ， B ， C ， m ) SM 的排列个数，其两行表示 

法不含有形如“ 6 e 的列，而恰含有 m 个形如=的列。由此得出，形如=的列恰 

a ， b ， c o c 

有 A - m 个，形如 f 的恰有 B - ttz 个，形如〔的有 C - B + m 个，形如 6 的有 C-A + 

O CL C 



m 个，以及形如的有 A + B - C _ m 



o 


因此: 


a 


N ( A ， B ， C ， 


m 


) 


A \ 


B 


C 


m / V C - A + m ) \B - m 


(23) 


定理 C 告诉我们，可以以另一种方式计算这些排列：由于排除了形如 a ^ ^的 

CL J 0 y C 


列，这一排列仅有的可能的素因子为 

(a b)a c ) ,{b c ) ,(a b c ) y {a c b ) (24) 

这些轮换中的每一对至少有一公共字母，所以分解成素因子是完全惟一的。如果轮 
换 U 6幻在因子分解中出现々次，则以前的假设意味着 （a 6) 出现 m - 々次， Oc ) 

出现 C - A — m — k 次， （ ac ) 出现 C-JB + 772 -焱次，以及 （a 出现 A + JB — C — 

2 m + A 次。因此 N ( A ， B ， C ， m ) 是这些轮换的排列个数（一个多项式系数），对 k 
求和： 

_ (C + m _ 々 ） ! __ 

(m - k)\(C - A + m - k)\(C - B ^ m - k )\ k\(A + B - C - 2 m + ^)! 


s 

k 


(m \ (A \ ( 

\ k / \ m I \ C 



同 (23) 比较，发现下列恒等式一定成立: 



这是在习题1 .2.6-31 中遇到的恒等式，即 



J 3 


C 


—— m 


(25) 


(26) 



— 尺十 S\ /iV + 尺 一 S\ / 只 


V 


N - 



\M + N 



(27) 


其中 ， M = A + J 3 _ C _ m ， iV = C _ J 3 + m，_R = J 3， S = C ， W&j = C _ B + 7 w ~ k 0 

类似地，可以计算 1 A . a ， JB . 的排列个数，使得其中各种类型的列 

的个数指定 如下： 

列的 类型 ： a a b b c c d d 

d b a c b da c 

次数 ： r A ~ r q B - q B - A + r D - r A - q D - A + q 

(28) 

(这里 A + C = JB + D 。） 于是对于某个 s ， 在这种排列的素因子分解中可能出现的轮 
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换是（见习题 12): 

轮换： (a b) {be) (c d) (da) {abed) (d c b a) 

次数： A — r — sB~q — sD~r~sA — q — s s g - A + r + 5 

(29) 

在这种情况下，轮换 U 6) 和可相互交换，而且 （6 O 和 U a ) 亦然，所以必须计 
算不同的素因子分解的个数。结果是（见习题10)，总有一个惟一的因子分解，使得 
( cd ) 之后不会紧跟 U 6) ，且 U a ) 之后不会紧跟（60。因此，由习题13的结果，有 
恒等式 



5 , 


B 


t 


A - q - s 

A — r — s — 


IB + D — r — s — t\ 

B — q — s , 


X 


D ! 


(D — r — s) \ (A — q — 5 ) ! 5 ! ((^ — A + r + 5) 


AWB+D—A 


B 


r 


D 


r 


Q 


D 

A — q ) 


从公式两边去掉因子 


D 


A - q 


并稍微简化阶乘，剩下颇显复杂的 5 个参数的恒等式 



B \ (A. — r — t \ (B 十 D — r — s — t \ (D — A + q 


Sf 


S 


D + q — r _ t 


\ D — r — 


s 


A — q 

r + t — q I 


/A 


B + D-AMB 



D - 



Q 


(30) 


利用 （27) 可实现对 s 求和，而且对 z 的和数也容易 计算； 所以，在完成所有这些之 
后，我们未能有幸发现尚不知如何导出的任何恒等式。但是至少我们已经学习了以 
两种不同的方式计算某些类型的排列，而且这些计算技术对于以后的问题是一个很 
好的训练。 


习题 

1.1 M 05] 真或 假：设 和 iVf 2 是多重集合，如果 a 是％的一个排列，/?是％ 2 的一个排列， 
则 a t /? 是 U 的一个排列。 

2. [10] 在 （5) 中计算了 与的插入 乘积; 试求当交换因子时得到的插入乘积 

b d d a d c a d a b o 

3. [ Mi 3] (9) 的逆成立否？换言之，如果 a 和 /? 在插入乘积中可交换，则它们必须没有公共 
字母吗？ 

4. [Mil ] 当 a <6< c < d 时，在定理 A 的意义下， （17) 中给出了 （12) 的典型因子分解。试求 
当 d<c<b<a 时对应的典型因子分解。 

5. [ M 23] 定理 B 的条件 b ) 要求工<3； ; 如果把这个关系减弱为工<3；,则会发生什么情况？ 

6. [ Mi 5] 问这样的串有多 少：它 恰含有 m 个个又无其它字母，而且恰在 々个 a 的前 
面都有一个心？ 
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7.[ M 2]] 满足条件 （18) 且以字母“打头的字母 a ，6， r 的串有多少？以字母6打头的呢？以 
字母 c 打头的呢？ 

► 8.[20] 求把 （12) 分解成两个因子 a Ti S 的所有因子分解。 

9. [33] 试写出把一个给定的多重集合的排列，分解成定理 A 和定理 C 所述的形式的计箅机 

程序。 

► 10.[ M 30] 真 或假： 尽管根据定理 C 分解素因子不真正惟一，但我们可以以下列方式确保惟 
一 性：“ 存在素排列集合的线性次序、，使得一个多重集合的每个排列有惟一的素因子分解〜丁 

… TA ， 它满足条件：对于当〜与 Hi 可交换时，〜⑴。 

► ll .[ M 26] 设^，心，.. •，〜 是没有重复元素的轮换。如果•且〜至少同 A 有一个公共字 

母，则说： r , 、七 ，这样就定义了？个对象1：^，…，上的偏序、。证明定理 C 和 2.2.3 小节拓扑 
排序的思想之间的下列联系 T … T 〜 的不同素因子分解的数目，是对给定的偏序进行拓 
扑排 序的方 式个数（例如对应于(22)，我们发现有5种方式对次序 A -^^4,^1 ^^4拓 

扑排序）。反之，给定/个元素的任何偏序，就有一轮换集合 


以所述的方式定义偏序。 

12. [ MJ 6] 证明 （29) 是 （28) 的假设的一个推论。 

13. [ M 21 ] 证明不含有相邻的字母对偶⑺和办的多重集合 lA . a ， B _6， C ‘ c ， Dd ，£> e ， 
F -/1 的排列个数是 

A + B + E + F\/A + B + C + E + F - t \ / C+D + E + F \ 

t I \ B ) V C ， D ， E，F ) 

14 . [ M 30 ] 根据本小节中其它定义的提示，定义一个一般排列 ^ 的逆; r _ 的方法之一，是把 
的两行表示的行交换，然后对这些列做稳定排序，以便把上面的行变为非减次序。例如，如果 a < 
6< c < d ， 则这个定义意味着 cabdd a bdad 的逆是 

试剖析这个求逆操作的性质；例如，它同插入乘积是否有任何简单的关系？我们能计算使 



TTZtT 1 的排列的数目吗？ 

► 15.[ M 25] 证明多重集合 

Ui * 工 1，”2 • , n m - x m I 

的排列心…〜，其中 々〈■ r〆 … <、，〜+ ；2 2 +…+、= ”是一个轮换，当且仅当具有顶点 
Ui ，: C 2 ，…，: rj ,和从七到 + + 1的诸有向边的有向图恰好包含一条有向回路。在后一种情 

况下，以轮换形式表示排列的方式个数是有向回路的长度。例如，对应 

faaabbcccdd \ 

\dcbacaabdci 


的有向图是 



而把这个排列表示成一个轮换的两种方式是 （6 addcacabc ) 和 （cadd cacbab )。 

16. [ M 35] 在排列一个集合的特殊情况下，我们在上节建立了排列的反序的生成函数，即等 
式 5.1. 1-(8)。试证明，一般情况下，如果排列 一个多重集合 ，则 Ur 〜 ，〜的反序的生成 

函数是多项式系数” 
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”1 … 



[同 （3) 和等式 1.2.6-(40) 中的 z - 二项式系数的定义作比较。] 

17. [ M 24] 利用在习题16中建立的生成函数，求出在一个给定的多重集合的随机排列中，反 
序个数的平均值和标准离差。 

18. [ M 30]( P . A . MacMahon ) 上一小节定义了一个排列〜 a 2 … a ，， 的 指数； 而且证明了一 

个集合的指 数为々 的排列个数，等同于有々个反序的排列个数。对于一个给定的多重集合的排 
列，同样的结果成立否？ 

19. [ HM 28] 定义一个排列 tt 的 Mobius 函数 pU ) 如下 ：如果 tt 含有重复的元素，则为 
零； 否则，如果 7 T 是々个素因子的乘积，则 p (7 T ) 为 （- 1/ [同通常的 Mobius 函数的定义，即习题 
4.5.2-10 进行比较]。 


a ) 证明如果则对所有为 7 T 的左因子的排列 A 求和（即对某个 p，A Ti o =; r ), 我们有 

XI " ⑴ = 0 

b ) 给定工 〆 :?^ 〈… 〈 I ", 和 = 々 ，其中，对于 《 j k < m ，证明 

12 ^ n 

fi{n) = (- 1 )^(^ i 2 … i”) 


其中 〆 … D=sign TI ( i k - i } )o 

l j K 

► 20. [ HM 33] ( D . Foata ) 设（巧）是任意实数矩 阵。 在习题 19 b ) 的记号下，定义 ^ a iyJ{ - 
，其中 ； r 的两行记号为 



这个函数在计算一个多重集合排列的生成函数时是有用的，因为对于多重集合 

Ui • - X m 


的所有排列 7 T 求和的 ^ V ( TT )， 将是满足某些限制的排列个数的生成函数。例如，如果对于 


取 


a 


U 


以及对于/关7 ,取 


V 


则 H y (7 T ) 是对于“不动点”（上面和下面元素相同的列）个 


数的生成函数。为了同时研究所有多重集合的 ^ v (; r )， 我们考虑函数 


G 



nv 


(tt) 


它对于包含元素^，…， ; r w 的多重集合的所有排列集合 U , , 


r 


m 




中的 7 T 求和。 


在 G 的这个公式中，我们把； r 处理作诸 T 的乘积。例如，当 m =2 时，有 


G 



x { v(x x ) + X 2 v(x 2 ) + + X X X 2 ^(x { X 2 ) + 


X 2 Xyv(x 2 Xy) + X 1 X 1 v{x 1 X 1 ) + 


• ■鲁 



2 


+ ^ 2^22 + ^ 1^11 + x l x 2 a X \a 2 2 


X 1 ^2 a 21 a \2 ^ x 2 a 22 
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于是 G 中 xp … x : 的系数就是对于1~ ^72 
出，这个系数也是在表达式 


• X 


m 


I 的所有排列 7 T 求和的 2 v (7 T )。 不难看 


( a n x x + 

中…的系数。 



21 工 1 + 







\ n 

m ^ tn 


这个习题的目的是要证明 P . A . MacMahon 在他的 Cbmb/Viatory Ana/ysis 1 (1915) 第 3 节中所 


谓的“主要定理”，即公式 


G 


1 /D 


其中： 


1 — a 


ll 


x 


D 


det 




^12^2 

a 22^2 


a \m X 


a lm X 


m 


a m\ X \ 


^ /；i 2 ^ 2 


1 - u 


例如，如果对于所有的 i 和 j ，％ 


，则这个公式给出 


G 




1/(1 - + x 2 + …+ x m )) 


而 ： r 〗 i …:的系数正好像它应该的那样，即 （& + …十 w w )!/ w !〜 nj 。 

为了证明主要定理，证明 


a ) u ( nJp ) 


w ( tc ) ^( p ) 


b ) 在习题 19 的记号下， D = 2 JTV ( 7 T ) V ( JT ) ，该式对 


X\ , m yX 


m 


中的所有排列 TT 进行 求和; 

C ) 因此 D-G = lo 
21.[ M 2 I ] 给定 I ,… 


, n m 和 dX ), 对于 l<j < n = rii + 


# • 



n m , 多重集合 I q • 1 ，…， rz 


m I 中有多少排列 ， a 2 , …， a n 满足七 + 1 >七- d ? 

22.[ iVf 30] 设尸(^彳1"_ > 3：>)表示多重集合丨《 1 1 1 ，一，、*0： 7；1 丨的所有可能排列的集合，并设 

尸(工 W ，4) 是 PUSt )4 n :>) 的子集，其 中头〜 个元素关工0。 

a ) 给定满足1</<州的一个数 i ， 试求对于某个6>0,尸（1"^讲、）和分别属于尸 () ((^1” 1 〜 

少）和 P 0 ( O k (t +■ 1广/ + 1…的所有有序的排列偶的集合之间的——对应。[提示：对于每个 ； r 
=〜…€ P ( lf … m ”，《 ) ，令 Z (7 T ) 是通过以0来代替 〖 + 和删除最后的 〜+ i +…+ 个 

位置中的0所得到的 排列； 类似地，令 rU ) 是以0来代替1，一，〖并且删除头〜+…+〜个位置 
中的所有0所得到的排列。] 

b ) 证明其两行形式有巧个列？和％个列 i 的尸(0、1» 1 ‘"772、）的排列的个数为 

I 尸（工 ? 1 … 工 t ： y\W. •: y> _ M I I 尸 ㈤… 々 y ; 1 — 91 …I 


卜…+ 个 

+ n t 个位置 


P 0 (O w ol w i 


… m 




C ) 设 ZVi ，…， TX % ,2： l ，〜，2： w 是单位圆上的复数，把一个排列 7 r €： … m %) 的权 Z ^(7 T ) 定 

义为在两行形式下它的列的权的乘积，其中乂的权当 j 和々 两者都或>?时为 x ^ /叫， 否则为 


zJz k o 试证明对所有的； rGP ( l rt i 


§ 4 m 


m ” … ） ， I £；(7 T ) 之和为: 


▽ - 々）!（”><- 是）! 

^ n n 1 乙 




m 


n 


p 


p 


m 


U )\ 

之 l 


TV 


m 


in 


其中是… + 


♦蠡暴 


+ Wri w > £ S W M ! + 


■邊翁 


+ 而且内部的求和是对于使得 



t = k 的所有 
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(仏，…，〜）进行的。 

23. [ M 23] —股脱氧核糖核酸 （ DNA ) 可以想像为在一个4个字母的字母表上的一个字。假 
设我们复制一股脱氧核糖核酸并且把它完全分裂成单字母基，然后再随机地重新组合它们。如 
果把得到的这股放在原来一股之后。试证它们不同的位置个数相对奇数来说更有可能是偶数 
[提 示： 应用上一道习题]。 

24. [27] 考虑在两个未排序的字母偶之间可能成立的任何关系尺；如果丨说，工1只心， 2 |，我 

们就说丨 te ; ， 1保持1 z 1，否则就说1 1 1移动 \ y ,z \ o 

假定和:按照对偶丨 W ， 了丨保持还是移动对偶对于 尺，转置 W I 的操作为 

v # X IV X IV IV X 

以 y z 或， y 来取代 y / 

对于 i ? 来说，对一个两行数组的排序操作为重复地求最大的 A ， 并且若 ^> x J+l 

\ n ,/ / 

则转置列 j 和 J + 1， 直到最终有为止（我们不要求力…％是1广^，，的一个排列）。 

a ) 给定 f 1 〃 ) ，试证明，对于每个1 G I x: I ,存在惟一的 ： y G I Vi ，…，: y w 丨，使得对 

\ yr m ^ y n f 


于某个 工士， 3^ ， … ， : r。 <， sort 



sort 


x x n 

: y W …: y 二 



A / VO\ m - V0 k \ _ / Xi \ I U>V VJ k X\ Xi \ 

b ) 令 ⑧ 表示相对于只对 进行排序的结果。例如， 

j yk q … 之 // 

如果尺总是为真，则⑧只不过是 连接； 如果总为假，则⑧是交插乘积 T 。 如果我们令 （11) 表示 
(: c 2 … ) 而不是 （: rpy : c ，,） 来重新定义轮换符号，则通过证明一个多重集合 Af 的每一个排 

列，有满足 （16) 的形如 

7T = ( 〜 … X ln y^) ®((x 21 … ： y 2 ) ® …®(: Tu … ^tn y t )) 

1 z / 

的惟一表示，可以得岀定理 A 。 例如，假设丨1^，：^尺丨^,;^意味着比，: r ，： y 和 Z 都不同，则类似于 
(17) 的 （12) 的因子分解为 

(d d b c a ) ®((c b b a ) ®( (c d b ) ® ((<^ b ) ® (<^)))) 

(操作 ® 不总是遵从结 合律； 在广义的因子分解中的括弧应从右至左地嵌套。） 


*5.1.3 路段 

在第3章中，我们分析了排列中上运行的长度，作为测试一个序列的随机性的 
一项方法。如果在一个排列 q a n 的两端各放一根垂直的线段，而且每当 

> ~ + i 时，也在与~ i 之间放一根直线，则路段 （ runs ) 就是诸对线之间的区段 

( segments )。 例如，排歹 ll 

13571168914121 

有4个路段。在3.3.20小节中建立的理论，确定了在丨1，2，〜，幻的一个随机排列 
中，长 度为々 的路段的平均个数，以及长度为 j 和々的路段个数的协方差。路段在 
排序算法的研究中是重要的，因为它们表示数据已排序的诸段，所以现在将再次研 
究路段这个课题。 

让我们使用记号 
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料 


5.1 排列的组合性质 


来代表|1，2, 


參#參 


<；> 

， n 丨的排列中，恰有々个“递减 


( 1 ) 


a 


■ > 


a 


因而恰有 々+ i 个递增路段 


的个数。数 



n 


k 


>在许多场合中出现，它们通常被称做欧拉，因为欧拉在很多年之前 


的一篇技术文章 [ Commenf . Acad . Sci . Imp. Petr op. 8(1736) ， 147 




158, §13] 中提到 


了它们，之后又在他的名著 [Jnstitutiones Calculi Differentialis ( St . Petersburg : 1755) ， 

485 〜 487] 中讨论了它们。注意，不要把它们与习题 5.1.4-23 中讨论的“欧拉 （ Eu ¬ 


ler ) 数相混淆。 



n 




中的尖括号提醒我们在 


个递降定义中的“ >”符号。当然 



n 




也是有是 




递增”的七 < 七 +1 的排列个数。 


通过把元素 w 插入到所有可能的位置上，我们可以使用对 u ， 


4馨瞻 




1丨的任何 


给定的排列来形成”个新的排列。如果原来的排列有々个递降则恰有^ +1个新的 
排列将有々个递降；剩下的 n ~ l - k 个将有々+ 1，因为除非把元素 n 放在一个现存 


路段的末尾，否则我们就会增加递降的数目 


例如，从3 1 2 4 5形成的6个排列是 


6 3 1 2 4 5, 
3 1 2 6 4 5, 


3 6 1 2 4 5, 
3 1 2 4 6 5, 


3 1 6 2 4 5, 
3 1 2 4 5 6； 


除第二个和最后一个外，它们都有两个递降，而不是一个，因此有递推关系 



71 




(k 



1) 



72 — 1 

k 




(n — k) 



n 



-1 
-1 



，整数 n > 0,整数是 


⑵ 


按约定，置 



0 


k 



^ k 0 


⑶ 


指出，空排列没有递降。读者可以发现，把 （2) 同在等式 1 . 2 . 6 - 
的递推关系作比较是有趣的，表1列出了对于小的 n 的欧拉数。 


(46) 中的斯特林数 


表1 


欧拉数 




0 

0 

0 

0 

0 

( 

0 

0 

0 

0 

0 

( 

1 

0 

0 

0 

0 

( 

4 

1 

0 

0 

0 

( 

11 

11 

1 

0 

0 

( 

26 

66 

26 

1 

0 

( 

57 

302 

302 

57 

1 

( 

120 

1191 

2416 

1191 

120 
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排序 


(续） 


247 

4293 

15619 

15619 

4293 

247 

1 

( 

502 

14608 

88234 

156190 

88234 

14608 

502 

i 



在表1中可以观察到若干模式。由定义，我们有 



n 


0 



+ 



n 




+ 


c 

n 



n ! 


(4) 



n 


0 



(5) 



n 

n — 1 



1， 



n 


n 



0,对于 n > 1 


( 6 ) 


由一般的对称规则，等式 (6) 由等式 (5) 得出，这是因为由一般的对称性规则， 



n 




< 


n 


n — 1 ~ k 



，对于 n > 1 


⑺ 


这由下列事实得出，即有 a 个递降的每个非空的排列^ 
增。欧拉数另一个重要的性质是公式 


■ ■参 


有 w - 1 -々个递 


E 



k 


n 


k 



m 




m 


n ^ 0 


( 8 ) 


n 


它由中国的数学家 Li Shan - Lan (李善兰）发现并发表于1867年[参见 J .- C . Mart - 

zloff ,A History of Chinese Mathematics ( Berlin ： Springer , 1997) ， 346 ~ 348; 对于 n ^ 
5 的特殊情况，已经由日本的 Yoshisuke Matsunaga (松永良弼）所知晓，他卒于1744 


年] 


o 


李善兰的恒等式是根据排序的性质推出的：考虑使得的 m ” 个序列 


^1 a 2 … 


我们可以以稳定的方式把任何这样的序列排成非递减的次序，得到 


a 


^ a ： ^ 


_ ■ ■ 


< a ； 


(9) 


其中 “ i 2 “. i n 是 1 1，2, 


，刹的一个惟一确定的排列，使得~ 


a 


意味着 




0 + 1 ;换闫之，> z j + 1意味着〜< a / 

J 


O 


如果排列 “ G 


l 有々个路段，则将证明 


对应的序列~ af 〜的个数是 


m 



n ~ k 


如果我们以 rz - A 来代替 A 并且使 
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用（7)，就将证明（8)，因为 



n 



〉个排列有《 - 々个路段。 


例如，如果 n 


9且 f 


!2 … 




3 5 7 1 6 8 9 4 2,则我们要计算使得 


^ a 3 ^ ^5 ^ a 7 ^ ^ 1 ^ ^6 ^ ^8 ^ 


< 


^ m 


( 10 ) 


的序列 q 


a , 的个数，是使得 


< < 6 2 < 厶3 < 〈 


< b 6 < 


< 


< 


^ m 
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的序列 1 ^ 2 " 4 9 的个数，因为我们能令 



反3，办2 




6Z5 十 1，办3 = ^7十2 5 b/\ — CL 



2,6 5 


a 6 + 3, 等等。选择诸6的方式的个数，就是由 m 



5件事物中选择9件的方 


m 



式数，即1 9 类似的证明对于一般的々和 n ， 以及对于任何具有々个路段的任 


何排列2 


之 2 … 


U 也有效。 


由于 （8) 的两边都是 m 的多项式，故可以用任何实数 


X 


来代替 m ， 从而得到用 


相继的二项式系数表示乘方的一种有趣 方式： 


X 



n 




x 


+ 


71 



71 



X 



+ 



n 


< 


n 


72-1 



: r + n 一 1 


n ^ 1 


(ID 


n 


例如， 


x 


x 




4 


X 



3 


+ 


X 





这是欧拉数的键码性质，这种性质使得欧拉数在离散数学的研究中很有用。 


在 （11) 中置 : T 




1，就再次证明了 



n 


\ 72 _ 1 

因为二项式系数除了最后一项外都消失了 



置 ： C 


2,得到 



n 


n — 2 




n 



2” — n — 1 ， 


n ^ 1 


( 12 ) 



X 


3,4, 


即知关系 （11) 完全确定了数 



n 




，并且导出了最初由欧拉给出的一 


个公式: 
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(k + 1 )" - k n 


n 




U — 1 广 


n 



暑 ■ # 


2 


+ (- 1)^1" 


n 



k 


E(-iv 


n 



(k + 1 - j)\ 72 > 0 ，々 >0 


(13) 


现在研究路段的生成函数。如果置 


gn ( 2 ： ) 




s 



n 


k 


k - 1 



n ! 


(14) 


则^的系数是 U ，2, …， n 丨的 




个随机排列恰有々个路段的概率。 由于々 个路段 


的可能性恰巧等同于72 + 1-6 个，故路段的平均数必须是 +(72 十1)，因此 g ；( l ) 




2 


(72+1)。习题 2( b ) 证明，对于 g ^(2；) 在点2： 




1的各次导数，有一个简单的公式 


S n 


U ) 


( 1 ) 


n 



n 


72 + 1-772 


n ^ m 


m 


(15) 


因此特别地，对于打>2,方差 （1) + /”⑴ - /”⑴ 2 成为 ( 



1)/12, 表示对于 
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均值的稍微稳定的分布（我们在等式 3.3.2-(18) 中发现过同样的量，在那里它被称 
做协方差（只^尺^))。由于^(幻是一个多项式，我们可以使用公式 （15) 推导出泰 


勒级数展开式 


gn(z) 


n 


n 


2 (之 - iy~ k k\ 


k 




n 


n \ 



z 




(i - 


n 



o 




此公式的第二式从第一式得出，因为由对称性条件 (7) 


gn(z) 


n + l 

^ gn 


Z 


， n ^ 1 


斯特林数递归式 


n 


k 




(k 



l ) 


n 


k + 



n 


k 


给出了两个稍微更简单些的表示，当时， 


n 


gn(z) 


n ! 


^ z( Z — l) n k k\ 


0 


n 


k 


(16) 

(17) 


因此，超生成函数 



等于 



2 

k , n^Q 


((z - l)x) n 
(z-D k 




S ( 


e 



k 


a _ 

e U_l) " 



(18) 

(19) 

( 20 ) 


这是欧拉讨论的另一个关系。 

欧拉数进 一 步 的性质 可以在 L Carlitz 的综述性论文 [Math. Magazine 33 
(1959) ， 247〜260 ] 中找到； 也可见 J. Riordan 的 Introduction to Combinatorial 
Analysis (New York : Wiley ， 1958) ， 38 〜 39 ， 214 〜 219,234 〜 237; D . Foata 和 M. P. 
Schutzenberger 的 Lecture Notes in Math. 138 (Berlin : Springer, 1970) 0 

现在考虑路段的 长度； 平均说来，一个路段的长度等于多少？在 3.3.2 小节，已 
经研究了给定长度路段的预期 数目； 路段的平均长度近似为2,同长度为〃的一个 


随机排列中大约有 |(n + 1) 个路段这一事实相一致。为了应用于排序算法，换一 

个角度来考虑是有用的；对于々 = 1,2,…，考虑在排列中从左到右第々个路段的长 
度。 

例如，一个随机排列的头一个（最左边的）路段有多长？它的长度总 
是>1，而且恰有一半的次数，它的长度>2 (即当 a !< a 2 时）。恰有1/6的次数，它 
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的长度 >3( 当 a '< a 2 < a 3 时）。而且一般说来，对于1< m < 72 ,它的长度> m 的 
概率是“ = 1/^!。因此，它的长度恰恰等于 m 的概率是 

Pm = q m - q m + i = \\ m \ - \Km + 1)!, 对于 l<m < w 

p n = 1/ n ! (21) 

因此头一个路段的平均长度为 

Pi + 2 p 2 + + np v = (<?1 - q 2 ) + 2( g 2 _ g 3 ) + ••■ + 

11 1 

(n - D(q n -i - q n ) + nq n = + q 2 ^ *** + ^ = 玎 + ^[ + … + 3 ( 22 ) 


如果令 n — 00 ，则极限为 e - 1 = 1.71828 …，而且对于有限的”，这个值为 e _ 1 _心， 
其中 A 十分小 

^ _ 1 fl | 1 | _ _ _ + …）< e 一 1 

— (n + l)\\ V n + 2 (n +2 )(n + 3) (n + 1)! 

因此，为了实用，不妨研究在不同数的随机无穷序列 


<2i , a 2 , <2 3 ,… 

中的 路段； 这里我们所说的“随机”，是指在这个序列中，头〃个元素的 n ! 种相对次 
序的每一种都是同等可能的。因此，在一个随机无穷序列中头一个路段的平均长度 
为 e - 1。 

只要稍微地加强对头一个路段的分析，就能确认在一个随机序列 中第々 个路段 
的平均长度。设是头々个路段的总长度>奶的概率，则^^是 1/ m ! 乘以路段数 


《 k 的 1 1，2，…， m 丨的排列数 




(23) 


头 A 个路段总长度是 m 


的概率为 


Qk (m + 1 ) ° 


因此，如果 M 表示第々个路段的 


平均长度，则求得 




M +…+ M =头 A 个路段的平均总长度= 

^1 - Qkl) + 2(^2 - ^3) + 3( 仏 3 — W4) 十 … 





Qk\ + Rki + Qk3 + •■- 

减去 M 十… + 并利用 （23) 中的 gybn 的值，即得所求的公式 
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由于除当 （=1 外〈^ = 0,故可证明是生成函数 g U ，1)-1( 见等式 （19)) 

k - 1 

中的系数，所以有 

L ( z ) = 2 ^ kZ k = ^7^1 ~~~ z (25) 

k>o e _ z 

由欧拉公式 （13) 得到作为 e 的一个多项式的表示 





(26) 


这个 M 的公式首先由 B . J . Gassner 得到[见 CAQVT 10 (1967) ,89〜 93] 。特别是，有 

L \ = e — 1 々 1.71828 … 


L 2 = e 2 - 2 e ^ 1.95249 … 



^ 1.99579 … 


所以预期第二个路段较头一个长，而且平均地说，第三个还将更长！乍一看，这似乎 
令人惊奇，但稍经思考即可知，由于第二个路段的头一个元素趋于变小（它引起第一 
个路段终止），故第二个路段就有一个较好的机会变得更长些。第三个路段的头一 
个元素甚至比第二个的更小。 

在替代-选择排序理论中，数 M 有其重要性 （5.4.1 小节），所以详细研究它们的 
值是有意义的。表2列出了 的头18个值到15位十进数。在上段中的讨论可能 


使我们首先猜测 M + 1 > L ^ 但是事实上这些值是向后和向前摆动的。注意， I ^迅 


速地趋于极限值2;看看超越数 e 的这些单一多项式多么迅速地收敛到有理数2是 
很有意思的!从数值分析的观点来看，多项式 （26) 也是颇为有趣的，因为它们提供了 
当接近相等的数相减时有效位数丢失的一个精采的 例子； 利用19位浮点算术， 

Gassner 得到不正确的结论 L 12 >2, 而 John W . Wrench , Jr . 注意到，用42位浮点算 


术来计算 L 28 时仅仅正确到29位有效数字。 


*5.1 排列的组合性质 


表2 篤 k 个路段的平均长度 


k 

u 

k 


1 

1.71828 18284 59045 + 

10 

2 . 00000 00012 05997 + 

2 

1,95249 24420 12560- 

11 

2 . 00000 00001 93672 + 

3 

1.99579 13690 84285 - 

12 

1 ■ 99999 99999 99909 + 

4 

2.00003 88504 76806 - 

13 

1 • 99999 99999 97022 - 

5 

2.00005 75785 89716 + 

14 

1.99999 99999 99719 + 

6 

2 . 00000 50727 55710- 

15 

2.00000 00000 00019 + 

7 

1.99999 96401 44022 十 

16 

2.00000 00000 00006 + 

8 

1.99999 98889 04744 + 

17 

2.00000 00000 00000 + 

9 

1.99999 99948 43434 - 

18 

2.00000 00000 00000 - 


L k 的渐近性质可用复变数理论的简单原理来确定。仅当即如果我们 
写 z = i ,当 

~ 1 cos y = x 和 e z_1 sin y = y (27) 

时， （25) 的分母为0。图3所示为这两个方程的叠印图。我们注意到，它们在^ = 
2： 0 ，, A , 2：2，$2，…处相交，这里，2：0 = 1， 

= (3.08884 30156 13044 -) + (7.46148 92856 54255 -)i (28) 

而且虚部 + 对于很大的&粗略地等于 3( Q )+2 tt 。 由于 

lim ( ~ ) (z - z k ) = -1， k >0 

广 、\ e ~ z / 

且对6=0,此极限为-2,故函数 


Rm ( 之） = 


L ( z ) + 



之 _ 之 0 


之 1 

Z — Z 



芝 1 




之 2 

Z — %2 





之 m 

一 Z 


m 


在 U | < | Z W + 1 1的复平面中没有奇异点。因此 i ^( z ) 有一个幂级数展开式， 
当 lz |< |% +1 |时，它绝对 收敛； 由此得出当 oo 时， M +— 0,其中 M =\ z m + l \ - 

6 o L ( z ) 的系数是 



的系数，即 


若令 


L 


n 


2 + 2r]" 7? cos nOy + 2 r 2 77 cos nQ^ + ••• + 2r w 77 cos nd m + 0( r m n +x ) (29) 

z k = r k e xd k (30) 


这说明了 的渐近性质。我们有 
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r l = 8.07556 64528 89526 - ， 6 { = 1.17830 39784 74668 + 

r 2 = 14.35456 68997 62106 d 2 = 1.31268 53883 87636 + 

( 31 ) 

r 3 = 20.62073 15381 80628 - ， 0 3 = 1.37427 90757 91688 - 

r 4 = 26.88795 29424 54546 — ， d 4 = 1.41049 72786 51865 - 

所以对于 L „ -2 的主要贡献乃归功于 n 和化，而且 （29) 的收敛是十分迅速的。进 
—步的分析 [ W . W . Hooker，CACM 12 (1969) ，411 〜 413] 证明，当 m — ⑺时，尺 w ( z ) 

—- 因此当>1时，级数 2Spor; w cos 吨 实际上收敛于 L„。 


e v_, sin y — y 
e x ~ l cos > = .r 



图 3 e z l = z 的根 

可以对概率进行更仔细的考察，以确定对 于第々 个路段长度和对头々个路段的 
总长度的整个概率分布（见习题9,10,11)。和数 Li + L 2 + …十结果是渐近于 

2k~j+0(S- k ) 0 

让我们来考虑，当在排列中允许出现相等的元素时路段的性质，以此来结束本 
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小节。19世纪著名的美国天文学家 Simon Newcomb 对做一种与这个问题有关的单 
人游戏很感兴趣。他把一副扑克牌一张一张地放在桌上，只要牌的面值是以非减次 
序出现的，他就把它们堆成 一堆; 但每当待堆放的下一张牌的面值小于前者时，他就 
开始一个新的堆。他想要知道，在整副牌以这种方式分发完毕之后，形成给定堆数 
的概率。 

因此 ， Simon Newcomb 的问题就是，求在一个多重集合的随机排列中，路段的概 

率分布问题。尽管已经看过怎样来解决当所有的牌都有不同的面值时的特殊情况， 
但一般的回答是比较复杂的（见习题12)。这里，我们将满足于推导出现于这个游 
戏中的平均堆数。 

首先假定有 w 种不同类型的牌，每种类型恰出现次。例如，通常的桥牌，如 
果不考虑花色时，有 m = 13 和 p = A Q P . A . MacMahori 发现了应用于这种情况的值 
得注意的对称性 [Combinafory Ana〗ysis 1 ( Cambridge ，1915) ，212 〜 213] :有々十1 个 

路段的排列个数等同于有+1个路段的排列个数。当 P = 1 时，这个关 
系是等式(7)，但对于 p > l 时，它是十分令人惊奇的。 

通过在具有 k + I 个路段的每个排列，同具有 + l 个路段的另一个 
排列之间建立 一一 对应，就能够证明这对称性。在往下阅读之前，鼓励读者亲自动 
手试一试，来发现这一对应。 

显然，没有很简单的 对应； MacMahon 的证明是以生成函数，而不是以一种组合 
构造为基础的。但 Foata 的对应（定理 5.1.2 B ) 提供了一个有用的简化，因为它告诉 
我们，在具有々+ 1个路段的多重集合排列和其两行表示法中，对于： rCy ， 恰含有々 
个列 J 的排列之间，有——对应。 


假设给定的多重集合是丨 fl ， P _2, …，广772|，考察其两行表示法为 



… 1 2 
… 工 21 


9 


_ _ ■ 


丄 


m 


x 


m 


蠡#蠡 




的排列，可以把这个排列和同一多重集合的另一个排列结合起来 


(32) 




^ Ip 


2 



x 


7)1 


籲》# 



2 

/ 

^ mp 


參 f # 



m 

^21 



(33) 


其中 ：^ = m + l -： r 。 如果 （32) 含有形如$且: r <]/ 的々个列，则 （33) 含有 （m ~ 1 ) p 

-々个这样 的列； 因为仅仅需要考虑^>1的情况，而且： r < y 等价于 + 2- 

3^0现在 （32) 对应于具有々 十1 个路段的一个排列，而 （33) 对应于具有 mp ~ p~k + 

1个路段的一个排列，而且由于把 （32) 变为 （33) 的变换是可逆的——它把 （33) 变回 

(32)，因此 MacMahon 的对称性条件已经建立。关于这个构造的一个例子，见习题 
14。 


由于对称性，在一个随机排列中路段的平均数必须是|((々+ 1) + (772/)-/)- 

々+ 1 )) = 1 + 士 /) ( m - 1 ) 。例如，利用一副标准扑克牌，由 Simon Newcomb 的单人 
游戏得到的平均堆数将是 25( 所以它不像是一种有吸引力的单人游戏）。 
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排序 


给定任意多重集合•: r 2 , …，其中诸 x 是不同的，利用一个 
相当简单的论证，实际上可以大体上确定路段的平均数。设 n = m + n 2 +…+ &,， 
并想像这个多重集合的所有排列 q a 2 都已经写 下来； 我们来考察，对于每个 
固定的 z 值 l < f < n ， 〜大于〜 + 1 的机会如何。七>〜 + 1 的次数恰是 化关 4 + 1 的次 
数 之半； 而且不难看出 ，化 =七 + 1 = &恰有 Nn /~- l )/ n(n - 1) 次，其中 N 是排列 
的总数。因此 ，七 =七 + 1 恰有 



-1) + …+ n m ( n m - 1)) 二 




次，而且 a f > a l + 1 恰有 



N 

2 n ( n — 1 ) 



次。因为在每个排列中有一个路段在〜处结束，因此若对 f 求和并加上 iV , 则得到 


在所有 N 个排列当中路段的总数 


N(f - n \ + …+ 72^) + 1) (34) 

除以 N 即给出所求的平均路段数。 

由于在“顺序统计”的研究中路段是重要的，因此有相当多的著作讨论它们，包 
括这里未予考虑的若干其它类型的路段在内。更多相关信息，请参见 F . N . David 和 
D . E . Barton 所著的书 Cbm bin a tojria / Chance ( London .: Griffin ，1962) ，第 10 章；以及由 
D . E . Barton 与 C . L . Mallows 合写的综述论文 Anna?s of Math . Statistics 36 (1965)， 

236-260 o 



l .[ M 26] 推导欧拉公式 （13)。 

► 2.[ M 22] ( a ) 推广正文中用来证明 （8) 的思想，考虑恰含 9 个不同元素的那些序列 


以证明 



( b ) 用这一恒等式来证明，对于 n > m . 




3 .[ HM 25 ] 计 算和数 刃走 〈:〉（ - 1)A 。 

七10值等于 多少? 


5. [ M 20] 当 p 是素数时，求 (mod p 的值。 

、 k’ 

► 6.[ M 21] B . C . Dull 先生注意到，由等式( 4 )和 （13) 


心 S 〈：>= 2 S (-1 广七 + 1 卜 1” 

首先对々进行求和，他发现对于所有的(- D ^-^ rj ) = 0;因此，对于所有的 ”> o , 
d =0, 他是否正确？ 

7. [ HM 40] 由 （14) 给出的路段的概率分布，是否渐近于正态的（参见 1.2.10-13)? 

8. [ M 24] ( P . A . MacMahon ) 证明一个充分长的排列，其第一个路段的长度为 Zi ，第二个的长 

度为/ 2 ，…，以及第々个的长度>&的概率，是 

1/ /1 ! 1/(,1 + ,2)! 1/ ( / 1 + ,2 + ,3)! … 1/(,1 + ,2 + ,3 + …+ “）！ 

1 1 / 1 ^}- 1/(,2 + , 3 )丨 … 1/(,2 + ,3 + …+ 4 )! 

det 0 1 1 " 3 ! … l /( Z 3 + …+ 4)! 

* 4 

■ 参 

* * ]； 

、0 0 … 1 lll k \ , 

9. [ M 3 G ] 设 h k ( z )= 其中是在一个随机（无穷）序列中头々个路段的总长度 

为 m 的概率。试求 / MUhhU ) 以及超生成函数的“简单”表达式0 

K 

10. [ HM 30] 对于大的 I 求上题中的分布 h ( z ) 的均值和方差的渐近特性。 


ll .[ M 40] 设 H k { z ) 




YjPkrX 1 ，其中是在一个随机（无穷）序列中第々个路段的长度 


为 m 的概率。试借助熟悉的函数来表达汗（％)，付 2 (幻以及超生成函数二 J ] H k ( z ) x k 0 

12. [ M 33 ] ( P . A . MocMahon ) 通过证明恰有々个路段的 \ n { a l y n m ^ m \ 的排列数是 


k 




n + \ 


其中， ^ 


o 


+ 


n { - l + k - j 




«2 _ 1 



k — 


n n - 1 + k 


n 2 


”2 


+ 


♦參 _ 


+ ^ ，，把等式 （13) 推广到一个多重集合的排列上。 


13. [05] 如果 Simon Newcomb 的单人游戏用一副标准桥牌来进行，忽略面值，但令梅花 <方 
片< 红桃< 黑桃，问平均的堆数等于多少？ 

14. [ MI 8] 排列3111231423342244有5个 路段； 试按照正文关于 MacMahon 对称 
性条件的构造，求对应的有9个路段的排列。 


► 15. [ M 2]] ( 交错路段 ) 


19世纪有关组合分析的经典著作，都没有像我们这样考虑排列中的 


路段这个课题，但有若干作者研究了交错地递增或递减的路段，因此5 3 2 4 7 6 1 8被认为有4个 
路段，即 

53 2,24 7,761, 18 

(按照或^><22 ,头一个路段将是递增的或递减的；于是 <3 02和〜…以及 （ ^ + 


l - q )(；2 + l - a 2 )_-(rZ + l -〜） 都有相同的交错路段数）。当排列《个元素时，这种类型路段 
的最大个数为 n-U 

试求在集合丨1，2,… ，别的 一个随机排列中交错路段的平均数[提示 ：考虑 (34) 的证明]。 
16 .[ M 30 ] 继续上一题，设是恰有々个交错路段的 il ，2, …， 刹的排 列数。试求一个递推 

关系，借助它可以计算一张 的表； 并求生成函数 G „ U )= 的对应递推关系。试 

利用后一递推关系，来发现在11，2,…，72 | 的一个随机排列中，交错路段个数方差的一个简单公 
式。 
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17. [ M 25] 若每个~是0或1，则在所有2” 个序列当中，其恰有々个路段者（即， 
出现々-1次屮 >七 + 1 )有多少？ 

18. [ M 2 S ] b } 为范围 ()<：、<: n _】 中的一个整数，问 ：所有 d 个序列 b 、 bfb ” 当中， U ) 有多 
少个恰好有々个递降 （ g 卩~>~ + 1 的 A 个出现）？ （ b ) 有多少个恰 好有& 个不同的元素？ 

► l 9.[ M 26]( J . Riordan ) ( a ) 在 nX n 的棋盘上可以有多少种方式，来放置《个不相拼（即，在 
同一行或同一列中没有两个）的车，使得在主对角线的给定一边内恰有々个？ （ b ) 在 ；2 x w 的棋盘 
的主对角线之下放置々个不相拼的车，可以有多少种方式？ 

例如，图4表示把8个不相拼的车放在标准棋盘上，其中，有3个车放在主对角线下不带阴影 
的部分，这是15619种放置方式之一，同样也是把3个不相拼的车放在一个三角棋盘上的1050种 
方式之一。 



图4在一个棋盘上不相拼的车，且在主对角线之下有々= 3个车 


► 20. [ M 2〗]如果为了以非递降的次序来读完一个排列的元素，我们必须从左到右扫描它々 
次，则说这个排列是 要求々 次阅读的。例如，排列49 1 825 367要求4次 阅读： 第一次阅读时，我 
们得到1，2,3;第二次，我们得到4,5,6,7;然后8;然后9。试求路段和阅读之间的联系。 

21 . [ M 22 ] 如果|1,2,…，《|的排列 q ~在习题20的意义下，有々个路段并要求次 

阅读，则排列… a 2 q 将如何？ 

22. [ M 26 ] ( L . Carlitz , D . P . Roselle 与 R . A . Scoville ) 试证，如果/ •■$<«, 则不存在具有 w + 1 _ 

r 个路段，且要求 5 次阅读的丨1,2,…， J 的 排列； 但如果 n > r 2 + l - r >5^1, 则这样的排 

列就存在。 


23. [ HM 42 ](Walter Weissblum ) 在排列& a 2 中，在一个区段停止单调前，即在该处放 

置一条竖线，可得到此排列的“长路 段”； 长路段的递增或递减取决于它们的头2个元素的次序，所 
以每个长路段的长度（可能最后一个除外）都>2。例如，7 5|6 213 8 911 4有4个长路段。试求 
一个无穷排列的头2个长路段的平均长度，并证明长路段的极限长度是 



cot 


2 


3 - cot 


2 



2 • 4202 


24.[ M 30] 如同习题5丄 1-18 那样产生的序列中,路段的平均数(作为/>的一个函数)是多少? 


25. [ M 25] 设 


_ 

f 


■ » 


是在 [ o ， i ) 中独立的一致随机数，问 LR + 


<P 4 * 


+ UJ 




的概率是多 


少？ 


26. [ M 20] 设沒为运算 z : f , 它以；2来乘一个生成函数中/的系数。试 证明： 反复应用沒到 

dz 
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1/(1 -幻上 m 次的结果，可以借助于欧拉数来表达。 

► 27. [ M 2 J ] 设一 个递增的森林 ，其节点以 il ，2,…，721来标识，并且父节点的标识小于其子节 

点。试证明： 是有 A + 1 叶的 n 个节点递增森林的个数。 

\ k ’ 


* 5 . 1.4 图表和对合 


为了完成对排列的组合性质的概述，我们将讨论把排列同整数阵列（称为图表) 
联系起来的某些值得注意的关系。杨氏（心，〜，…，72^形图表（其中 

> n w >0) 是把 w 2 + …+ 个不同的整数排成每行左对齐的一个阵列，其中 
% i 行有；2,个元素，行中的项从左到右处于递增的次序，而且每列的项从上到下也 


是递增的。例如 



是一个杨氏（6,4,4，1)形图表。这种排法是由 Alfred Young 于1900年为了研究排 
列的矩阵表示，而引进的一个辅助手段[参见 P roc . Lon don Math . Soc . (2) 28 
(1928), 255 — 292; Bruce E . Sagan , The Symmetric Group (Pacific Grove , Calif . : 

Wadsworth & Brooks / Cole , 1991)] 。为了简便起见，把“杨氏图表”简称为“图表”。 

一个对合是这样一种排列，它是自己的逆，例如， U ，2,3,4 i 的对合共有10个 


(1 2 3 4) 
il 2 3 4/ 
(1 2 3 4) 
a 4 3 2/ 


(1 2 3 4) 
^2 13 4 / 
1 2 3 4) 
1 2 4 3/ 


(1 2 3 4) 
、3 2 1 4) 
(1 2 3 4、 
^2 1 4 3/ 


(1 2 3 4) 

U 2 3 li 

12 3 4) 
3 4 1 2J 




1 2 3 4\ 
1 3 2 4^ 
12 3 4) 
4 3 2 1/ 


( 2 ) 


“对合”这一术语起源于古典的几何问题；这里考虑的是一般意义下的对合，这是由 
H . A . Rothe 在引进逆的概念的时候，首先研究的（见 5.1.1 小节）。 


我们同时讨论图表和对合可能显得有点奇怪，但是在这两个表面上无关的概念 
之间，实际上有着非同寻常的联系：丨1，2，…， n \的对合的个数与由元素 丨 i ，2，…， 
n } 所能形成的图表数相同。 例如，由 i 1，2,3,4丨恰能形成10张图表，即 


r 一 一 

12 3 4 

1 

3 4 

1 

4 

1 

3 

1 

2 4 


2 


2 

3 


2 

4 


3 



( 3 ) 
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分别对应于10个对合（2)。 

对合和图表之间的这一联系决不是显然的，而且大概也没有非常简单的办法来 
证明它。我们将要讨论的证明包含一个非常有趣的图表构造算法，它有若干其它意 
外的性质，该算法是以把新元素插人图表的一个特殊过程为基础的。 

例如，假设要对图表 


(4) 


插入元素8。所使用的方法是，开始把8放入行1，放在原来为9所占据的小格上， 
因为9是在该行中大于8的最小元素，元素9就被“撞”到行2,在那里它代替10。 
然后10把13从行3“撞”到行4;由于行4没有大于13的元素，这一过程遂以把13 
插入到行4的右端而终止。至此这个图表变成 


(5) 


这个过程的精确描述在算法 I 中给出，同时还证明此过程始终保持图表性质。 

算法 1( 插进图表） 设 P =( P l；; ) 是一张正整数的图表，又设 x 是不在 P 中的一 

个正整数。这个算法把 P 变换成另外一张图表，它除了含有 P 原来的元素外，还含 
有： r 。 这张新的图表除了在第 s 行第 z 列增加一个新的位置外，形式和旧的图表相 
同，这里5和 《是由 本算法所确定的量。 

(在本算法中带圆括弧的注释用来证明它的正确性，因为容易归纳地验证这些 
注释是正确的，以及在整个过程中阵列 P 保持为一图表。为了方便起见，假定这图 
表已被镶了边，在顶上和左边有一些0并在右边和底下有一些％,使得对于所有的 

f 都有定义。如果定义关系 

a ^ b 当且仅当 a < b 或 a = b ~ 0 或 a = b = 00 (6) 

则这些图表不等式就可用下列方便的形式加以表达 

= 0 当且仅当 i = 0 或 J = 0 

P tJ ^ P ： 0 + 1) 和 P tJ ^ P( i + i)j 对所有 (7) 

语句“工$ jR ” 意味着，或 JC = 00 ，或对于所有 Z J ^ OyX ^ Pijo ) 

II •[输入： r ] 置 f — 1 ， 置 l i — JC ， 并置 j 为使得 = 00 的最小值。 




**5.1 排列的组合性质 


12•[求 a + [] (这时 P (，-⑴ < : r , < 且$ P ) 如果 ： r , < P z .( ; _ d ，则 j •减 1 并 
重复这一步骤。否则，置： T/ + 1 —P,；； 且置 r,—j 。 

13 •[代以： T/ ] (现在 _P,.(j — 1 ) 〈: r,. 〈: T， + 1 = Pij ^ Pi(j + i ) > Pa - \ )j ^ ^ + i = Pij 


^P (l + ])jy K n = j ) 置 P, ■ 广： c , 0 

14. [ x ,■ + i — 00 吗？] ( 现在 Pj(j -1) 〈 Pij 二 Xj + \ ^ Pj(j + \) ， P 。 - i ) j 〈 P " = 工 £ < 

A + 1 SjP ( / + d ; ， r ,. = j ，且 Xj + i ^; P ) 若: c , + i # 00 ， z •增 1 ，并返回步骤 12。 

15 . [确定置 s — 并终止此算法。此时，满足条件 

Pst ^ °° yP(s+l)t = P 心十 1) = °° ⑻ 



算法I定义了一个“碰撞序列” 

X = J：! < X2 < '•* < < J： s + i = 00 (9) 

和一^个辅助的列标序列 

厂1 > 厂2 > …^ = t (10) 

对于元素 P ;v 已经从4 + 1 变成为： T,。 例如，当把8插到 （4) 中时，碰撞序列 

/ 

是8，9,10,13,〜，且辅助序列为4,3,2,2。我们可以用另一种形式表述这个算法， 
以便它使用更少的临时 存储； 只有 j ，: c , 和 m 的当前值需要记住。但这里引人了 

序列 （9) 和（10)，为的是能够证明关于这个算法的一些有趣的事情。 

关于算法I，将要使用的键码事实在于它能够被“逆转运行” ：给定 在步骤15中 
确定的 s 和 r 的值，能够倒过来把 P 转换成为它原来的形式，并确定和消去被插人 
的元素： r。 例如，考虑 （5) 并假设告诉我们元素13是在原为空格的位置上，则13必 
然是被10从行3撞下的，因为10是在该行中小于13的最大 元素； 类似地，10必然 
是被9从行2撞下的，而9必然是被8从行1撞下的。于是，可以从 （5) 倒回到（4)。 
下列算法详细地说明这一过程。 


算法 D (从一图表删去）给定一个图表 P 以及满足 （8) 的正整数本算法 
把 P 变换成另一个具有几乎相同形状的图表，但在第 s 行第 < 列处具有〜。由本算 
法所确定的一个元素： r 被从 P 删去。 

(如同在算法 I 中一样，这里加上了带圆括弧的断言，以便于证明在整个过程中 
P 保持为图表。） 

D 1. [输入 s ， t ~\ 置 , i^~s , j: s + 00 o 

D 2 •[求: r ,] (这时 Po < a + 1 $ P (, + 川且 a + 1 $ P ) 如果 P /(J + 1) <: r , + 1 ，则 j 

增加1并重复这一步骤。否则，置： T Z — 且 r ,— J 。 

D 3 •[代以 j：i ^ 1 ] (现在 Pi(j - 1 ) P ^ = X [ ^ ^ P,-(j + 1 ), P (^ ^ "C P ^ ~ : r 〈 

x { + \^Pd + \)j ， - S. r { = j ) 置 Pij— 工 i + i 。 

D 4 • [ Z = 1 吗？](现在 _ P / 。 - 1) 〈 ： C , 〈 i = P/j ^ Py ( j 4 i ) y P (i - \ )j ^ Xj ^ Xi + \ 

- P ; ^ P (; + lb ,A r , 二 j ) 如果 f >1，则厂减 1 并返回步骤 D 2。 
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D 5 •[确定: r ] 置 i — h 并终止这个算法（现在 0<: r < cxO 。 | 

在算法 I 和算法 D 中岀现的带圆括弧的断言不仅是证明这些算法保持图表结 
构的有用方式，也有利于验证算法 J 和 D 恰为互逆。给定某个图表 P 和某个正整数 

如果首先实施算法 I ，它将插入： r , 并确定满足 （8) 的正整数对此结果应 
用算法 D ， 则将重新算出： r 并将恢复 P 。 反过来，给定某个图表 P 和某个满足 （8) 的 
整数^〖，如果首先实施算法 D ， 它将修改删去某个正整数： c ; 对此结果应用算法 
I ，将重新算出并将恢复 P 。 原因是步骤13和 D 4 的带圆括弧的断言是相同的， 
步骤14和 D 3 的断言也一样，而且这些断言惟一地表征 j 的值。因此辅助序列 （9), 
(10) 在每种情况下都是一样的。 

现在已做好准备来证明图表的一个基本性质。 

定理 A 在\1，2，，"^\的所有排列的集合，与由{1,2,…，“形成的图表的有 
序对偶 （ P ， Q ) 的集合之间，有一对一的对应，其中 P 和 Q 有相同的形状。 

(这个定理的一个例子出现于下边的证明内。） 


证明证明一个稍微更一般的结果是方便的。给定任何两行的阵列 


/ Qi Q 2 *■* Q fl \ q\ < Q2 < ■•- < q n 

^ Pi Pi pJ ， P \， Pi 、 …， p n 不同 
我们将构造两个对应的图表 P 和 Q ， 其中 P 的元素是丨仏，…， 九 

Ut ，…， 〜丨，并且 P 的形状即是 Q 的形状。 


( 11 ) 

，而 Q 的元素是 


设 P 和 Q 开始是空的。然后，对于纟=1,2,…，; 7( 以这个次序）做下列操 作：利 
用算法 I 把 A 插入图表 P ; 然后置 Qu — %，其中5和〖确定 P 中的新被填入的位 

置。 


例如，如果给定的排列是 G g ^ ^ U ， 我们得到 

P Q 

插人7: m rr 


插入2: 

2 


1 



7 


3 


插人9: 

2 

9 


1 

5 

7 


3 


插人5: 

2 

5 


1 

5 

7 

9 


3 

6 

插人3: 

2 

3 


1 

5 


5 9 



于是对应于 D 的图表 ( P , Q ) 是 


( 12 ) 
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p = 

2 

3 

， Q = 

1 

5 

(13) 

5 

9 

3 

6 

7 



8 



由这种构造法，显然 P 和 Q 总有相同的 形状； 其次，由于总是以递增的次序在 
Q 的周围增加元素，故 Q 是一个图表。 

反之，给定两个相同形状的图表 P 和 Q ， 我们可以求相应的两行阵列 （11) 如下。 
设 （3 的元素是 


Qi < Qi < < q tl 

对于 i = …， 2, 1( 以这个次序），令 p , 是当应用算法 D 于 P , 并且 用使得 Q st = q> 

的值时，被消去的元素： T 。 

例如，这个构造将以 （13) 开始，并将逐次地做 （12) 的反运算直到 P 为空，这就 



由于算法 I 和 D 彼此互逆，故已经描述的两个构造彼此互逆，而且建立了 一一 
对应 。I 


在定理 A 的证明中，定义的对应关系有许多惊人的性质，现在就着手来推导其 
中的某些。读者不妨亲手试试习题1中的例子，以便在往下阅读之前能熟悉这个构 
造 。 

一旦已经从行1把一个元素撞到行2中，它就不再影响行1 了； 而且由“被撞” 
元素序列来构造行2,3,…的方法，恰恰就像由原来的排列来构造行1，2,…一样。 
这些事实提示我们，可以用另一种方式来考察定理 A 的构造，即仅专注于 P 和 Q 的 

开头几行。例如，按照（12)，排列 G ^ ^ D 引起在行1中发生下列 动作： 

1:插入7,置 Q u — 1。 

3:插入2,撞下7。 

5:插入9,置 Q 12 — 5。 (14) 

6:插入5,撞下9。 

8:插入3，撞下5。 

于是 P 的头一行是23,而 Q 的头一行是1 5,其次， P 和 Q 中剩下的行是对应于 
“被撞下”的两行阵列 



(15) 


的图表。为了研究行1上构造的特性，可以考察进入该 行的一 个给定列的诸元素。 
我们说， （ g ,， A ) 相对于两行阵列 
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排序 


来说是在类 


中，如果从一个空表格 P 开始，在逐次应用算法 I 于 p x ， p 2 , …，以 


后 ， Pi 


Pi ，的话(记住，算法 I 总是把给定的元素插入到行1中）。 


容易看出，当且仅当 A 有个反序，即 p 


mini p x ,p 


九丨是“自左到右 


的极小值”时，（&九）在类1中。如果删去 （16) 中属于类1的诸列，则得到另一个两 
行阵列 


( q ： V % ⑼ 

、P 1 P :… P m > 

使得 （ gj ) 相对于 （17) 来说是在类〖中，当且仅当它相对于 （16) 来说是在类 z + 1 
中。从 （16) 进行到 （17) 的操作表示撤消行1最左的位置。这给了一个确定这些类 


q ! … q m ^ 

P’l … Pm > 

中，当且仅当它相对于 （16) 来说是在类 


的系统方法。例如，在 


3 


5 


6 


7 2 9 5 


8 

3 


中，自左到右极小的元素是7和2,所以类 


是丨 （ 1 ， 7) ，（ 3,2) 丨；在剩下的阵列 ^^ ^中，所有的元素都是极小的，所以类 2 是 

|(5,9),(6,5),(8,3)| 0 在“被撞下”的阵列 （15) 中，类 1 是 i (3 ， 7) ， （8 ，5 ) 丨，而类2 
是1 (6 ，9)10 


对于任何固定的 


值，类 


的元素可以标记成 


(〜， P [)， 


• • • 


， Q Qi. ， Pi 


其中 


< Qi . < m 




A. > P l . > 


■嘐 ■ 


< Qi 

t 

> P l 


(18) 


因为随着插入算法的进行，图表位置 Pu 取的值是递减序列 p 


Pi 


O 


在构造结束 


时，有 


Pn 


A ， Q 


It 


q 


(19) 


P 和 Q 的第 2,3, 


行是通过“被撞下来的”两行阵列定义的，这个阵列包含 


Qi 


Qi 


Q 


Pi 


Pi 


P 


( 20 ) 


-1 


诸列，加上以类似方式从其它类形成的其它列。 

这些发现导致了通过手算来算出 P 和 Q 的一个简单方法（见习题3)，而且它们 
也为我们提供了证明一个颇为意外的结果的手段。 


定理 B 如果排列 


2 


參 ♦ 





a 2 



对应于定理 A 的构造中的图表 ( P , Q ) ，则逆排列对应于 ( Q , P ) 0 

这项事实是十分惊人的，因为 P 和 Q 在定理 A 中是通过完全不同的方法形成 
的，而且一个排列的逆，是通过稍微反复无常地捣动两行阵列的诸列而得到的。 


*5.1 排列的组合性质 


证明假设有一个两行阵列（16)，交换这些行，并重排诸列，使得新的顶上一行 
以递增次序岀现，就得到“逆”阵列 

/ Ql *■* Qn \ _ / Pi Pi ■•- Pn\ / Pi p\ ••• Pn\ p\< p\< •■- < p n 

V /?! p 2 *** pj 、 Qi q2 … Qn ) ^ q\ q\ Q’rJ ’ ， 9 、， ••• ，不同 

( 21 ) 

我们将证明这项操作对应于在定理 A 的构造中交换 P 和 Q 。 

习题2已重新叙述了如何确定类的注释，使得（％， 九） 的类不依赖于 …也，…， 

q n 是以递增次序出现的这一事实。由于得到的条件在诸 9 和诸中是对称的，故 

操作 (21) 不破坏类的 结构； 如果 U ， 力）相对于 （16) 来说是处于类〖中，则 （>， g ) 相对 
于 (21) 来说就处于类〖中。如果因此通过同 （18) 的类似性我们把后一类〖的元素 
排成 


则如同在 （19) 中一样，就有 


而且诸列 


P, < •■- < p, < pi 

k 2 1 

Qi k > > Qi 2 > 

Pn = Qi } i Qu = Pi t 


( 22 ) 

(23) 



(24) 


如同在 (20) 中一样进入到“撞下的”阵列中。因此 P 和 Q 的前几行被交换。而且 
(21) 的“撞下的”两行阵列是 （16) 的“撞下的”两行阵列的逆，所以，通过对图表中的 
行数用归纳法，就完成了这一证明 。I 


推论由 U ，2, …， 72 \所能形成的图表的数目是 U ，2 ，…， n \上的对合的数目。 
证明如果 7 T 是对应于 （ P ， Q ) 的一个对合，则 7 T = 对应于 （ Q ， P ); 因此 P 
= Q 。 反之，如果 7 T 是对应于 （ P ， P ) 的任何排列，则7^也对应于（尸，尸），因此77 = 
7 T _。 所以，在对合； T 和图表 P 之间存在——对应。 ■ 

显然，一个图表在左上角的元素总是最小的。这提示了对一个数集进行排序的 
一 种可能的途径 ：首先 ，可以通过反复地使用算法 I ，把它们放置到一个图表 当中； 这 
就把最小的元素放到角上。然后删去这个最小的元素，并重新安排剩余的元素，使 
得它们形成另一个 图表； 然后删去新的最小 元素； 等等。 

因此，让我们来考虑当从图表 



( 25 ) 
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删去角元素时，将出现什么情况。如果删去1，则2必须取代它的位置。然后可以向 
上移动4到2原来所在的位置，但不能把10移动到4原来所在的 位置； 而是移动9, 
然后用12代替9。如此下去，就得到如下的 过程： 

算法 S (删去角元素）给定一个图表 P ， 本算法删去 P 的左上角元素，并且移 
动其他的元素，使得 P 仍保持图表的性质。这里沿用算法 I 和 D 的记号约定。 

S 1 •[初始化]置 r — 1，5—1。 

S 2 •[完成？]如果巧 5 = ^，则此过程完成。 

S 3 .[比较]如果 P 1)5 SP K 5+1 ) ，则转到步骤 S 5( 考察恰在空格下方和右方 

的元素，并移动其中较小者）。 

S 4 •[左移]置 ^—厂 (5+1) ，5-^ + 1,并返回33。 

S 5 •[上移]置 P r 5 — P( r+l)5 ，r —r + 1, 并返回 S 2。 ■ 

容易证明，在算法 S 已经删去了 P 的角元素之后， P 仍然是一个图表（见习题 
10) o 所以如果重复算法 S 直到 P 为空，则就能以递增的次序读出它的元素。可 
惜，这并不是像将看到的其它方法一样有效的排序算法；它的极小运行时间与” 1 5 成 
比例，而使用树形而不是使用图表结构的类似算法，却有阶为 niog 2 n 的执行时间。 

尽管算法 S 不能导致一个特别有效的排序算法，但它却有某些有趣的性质。 

定理 C ( M . P . Schatzenberger ) 如果 P 是由排列〜 a 2 … a n 通过定理 A 的构造 

形成的图表，而且如果\ = ^1^{以，(1 2 ,…， a „ \ ，则算法 S 把 P 变成为对应于 af 
a ; - ia ; + 的图表。 

证明见习题13。 ■ 

在应用算法 S 于一图表之后，把删去的元素放置到刚刚空出来的位置中，并 

用斜体来指出它实际上不是这个图表的一部分。例如在应用这一过程于图表 （25) 
之后，我们将有 



再应用两次，得出 
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对应于 （ p t ，（ q s ) t )。 

像通常一样， “ T ” 表示对行和列进行转置的 操作； P t 是一个图表，而 （ Q s ) t 是 


一个对偶图表，因为诸 g 的次序被逆转了。 

h ) 对诸 fi 而不是对诸 q 应用对偶次序，则两行阵列 （21 ) 对应于 （（ P S ) T ， Q T ) 

C) 对诸 P 和诸 q 同时应用对偶次序，则两行阵列 (28) 对应于 （ P s ， Q s ) 。 


证明这个定理的简单证明尚不可知。对于某个对偶图表 X ，情况 a ) 对应于 
( p t ， x ) 这一事实，在习题5中 证明； 因此由定理 B ， 对于某个对偶图表 y , 情况 b ) 对 
应于 （ Y ， Q T ) ，且必然有 P T 的形状。 

设，…，久1;由于久是对偶次序下“最大的”元素，它出现于 Y 的外 
围上，而且它不撞下定理 A 的构造中的任何元素。于是，如果利用对偶次序，逐次地 
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插入 p 、 ，…， p , 一 \， pi + y ，…， p n ，则就得到 y - 丨九丨，即除去了户,的 y 。 由定理 c , 如 
果利用正常的次序，逐次地插入仏，…， A .- i，A + …，九，则得到对使用算法 s 

而得到的图表 WP )。 对 ”用归 纳法 ， y - 丨 a.i = u ( p ) s ) T 。 但由于按操作 s 的 
定义 

( P S ) T - \ p { \ = ( d ( P) s ) T (29) 

以及由于 y 有和 （ p s ) t 同样的形状，必然有 y =( p s ) T 0 

这就证明了 b )， 而且通过应用定理 B 而得出 a )。 相继地应用 a ) 和 b ), 可证明情 

况 0对应于（（（尸 1 ') 5 )'((0 5 ) 1 ') 1 ') ; 而这就是（户，0勹，因为由操作5 的行、列对 
称性可知 （ P S ) T =( P (T ) S 。 | 

特别是，这个定理证实了关于图表插入算法的两个惊人的 事实： 如果逐次插入 
不同的元素 p '， …， p „ 到一个空图表中可产生图表 P ， 则按相反的次序插入 p n ，…， 

Pi 就产生转置图表 P T 。 而如果不仅以这个次序 p n ，…， p ' 插入诸 p ， 并且在插入 

过程中也交换<和> 以及0和⑺的作用，则就得到对偶图表 P s 。 读者不妨用一些 
简单的例子来试验这些过程。这些巧合的不寻常的属性可能使我们猜 测：在 舞台后 
边有某些魔法在操纵！还不知道关于这些现象的简单的 解释； 甚至没有显然的方式 
来证明下列事实 ：情况 c ) 对应于与 P 和 Q 有相同形状的图表，尽管习题2中的类的 
特征确实提供了一个重要的提示。 

G . de B . Robinson [American J . Math . 60(1938),745^760, §5] 以稍微含混和 

不同的形式，给出了定理 A 中的对应关系，作为解决群论中颇为困难的问题的一部 
分。他未加证明地叙述了定理 B 。 许多年后， C . Schensted 独立地重新发现了这个 
对应关系，他所指出的这一对应关系，实质上是借助于我们在算法 I 中所做的那样 

的“碰撞”给出的， Schensted 还说明了定理 D 的 a ) 的 “ P ” 部分 [Canadian J . Math . 13 
(1961) ，179〜191 ] 。 M . P . Schutzenberger [ Math . Scand . 12 (1963 )，117 〜 128 ] 证明 

了定理 C 和定理 D ( a ) 的 “ Q ” 部分，由它们就得出了 b ) 和 d 有可能把这个对应关 
系推广到多重集合的排列； Schensted 考虑了 p Y ，…， p n 不必是不同的情况，而 

Knuth 研究了“最终”推广到诸 p 和诸 q 两者皆可以包含重复元素的情况 [ftd J . 
Math . 34 (1970),709 〜727]。 

现在我们转到一个有关的问题 :有多 少个由 \1，2,…， n \ 形成的图表有一个给 
定的形状 （ ni ， n 2 , …， n m ) ，其中 + n 2 +…+ n m = n ? 如果用 /( w i ，〜，…，1 ) 来 

表示这个数，而且允许参数~为任意整数，则函数/必然满足下列 关系： 

/( 〜， rz 2 ，…，％ ) = 0 除非 > 打2 > … 〜 > 0 (30) 

/( …，72 2 ，…， 〜， 0) = /(”1，打2,…，〜） (31) 

/(r?!, ^2 , n m ) = f(n x - 1 ， 72 2 ， •“ ， 72 w ) 十 f(n x ,n 2 - 1 ， … ， 72 ”, ) + … 

+ /( 〜， r ? 2 ，…， - 1) 如果 ”1 > n 2 > … > 1 (32) 

递推式 （32) 得自这样一个事实，即撤消一个图表的最大元素后总是得到另一个图 
表；例如，形状为（6,4,4，1)的图表个数是 /(5,4,4，1) +/(6,3,4，1)十/(6,4,3，1) 
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*5.1 排列的组合性质 


十/(6,4,4,0) = /(5,4,4，1)+/(6,4,3，1)+/(6,4,4)，因为11，2，“.，15|上形状为 
(6,4,4，1)的每个图表，均由插人元素15到形状为（5,4,4,1),(6,4,3，1)或（6,4,4) 
的一个图表的适当位置而形成。如下图 



满足这些关系的函数/(&，&，…，^^有一个相当简单的形式 




A ( ! + m - 1， n 2 + m — 2, **• , n m ) n \ 

(n ^ + m - 1)! ( n 2 + m - 2)! ••• n m ! 


(34) 


假定相当温和的条件 


7 l\-V m - 1 ^ 722 + - 2 ^ ^ 


满足； 这里△表示下列“判别式的平方根”函数 


m — 1 
工1 



A ( x { , x 2 y" m yX m ) = det x \ 



2 

工 2 

x 2 




=XX (oCi - Xj) (35) 

1 ^ I < 


公式 （34) 是 G . Frobenius 在解决群论中的一个等价问题时导岀的 [Sitzungsberichte 
Preu ^. Akad.der Wissenschaften (1900) , 516〜534, §3], 并且利用了一个颇为深人 
的群论上的论证。 MacMahon 独立地给出了一个组合的证明 [Philosophical Trans . 

A 209(1909)，153 〜175]。这个公式可以通过归纳法来建立，因为关系 （30) 和 （31) 是 
容易证明的，而且在习题17的恒等式中置 -1 就得岀（32)。 

定理 A 给出了与图表数的这个公式有关的一个值得注意的恒等式。如果对所 
有形状求和，则有 



2 / Ui ，々2, …人) 2 


1 2 n 

A ,十灸，+ 々 = n 
1 2 n 



n 



十夭 〜 + ■■■ + 点 =n 


△(是 i + 72 一 1，是 2 + 於 — 2, … ，是 

(k j + 72 — 1)! 2 (是 2 + W - 2)! 2 …是 „! 2 



n : 


|2 



△( 91 , 92 , …， 〜） 2 


Q 


> 9 ，> 


疗 2 f …十9 


» ■謬 




^! 2 92 l 2 - 


•<ln 


|2 


n 


w + 1 ) n/2 


因此 



MquQiy 


yQn ) 


2 


々 ,+ 


q 2 + … + = ( »+ L) nil 


Qi^ 2 Q2 ]2 


•Qn、. 


|2 






(36) 


在后面这个和式中，已经除去了不等式因为被加数是诸的对称 
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函数，当 q 7 = Qj 时它为0。一个类似的恒等式在习题24中出现。 


基于“钩子”的思想，可以用一种更有趣的方式来表 
达求图表个数的公式。对应于图表中的每个小格，可定 
义钩子为小格本身加上位于其下边和右边的诸小格。例 
如，图5的阴影区域是对应于行2、列3的小格（2,3)的 
钩子； 它包含6个小格。图5的每个小格已经填以它的 
钩子的长度 D 

如果图表的形状为（^，^，…， ；2 W ) ，则最长钩子的 
长度为 + 对钩子长度作进一步的考察表明， 



n 

■ 

D 

B 

D 




6 

5 

3 

2 

• 


B 

B 

□ 

B 

D 

• 


B 

B 

D 

• 


3 

2 

• 




2 

I 

• 





图5 钩子及钩子的长度 


行 1 包含所有长度72 1 +7?2-1，；2 1 +7?2-2，".，1，但不包括（?2 1 +7?2-1)-(?2历）， 

(ni + m - 1 ) - ( T ^ — i + l )， …， （〜+ m - 1) — ( n 2 ^ rn _ 2) 。 例如，在图 5 中，行 1 

的钩子长度是12，11，10，一，1中除10,9,6,3,2之外 的数； 这些例外对应于5个不 
存在的钩子，即从不存在的诸小格（6,3),(5,3)，（4,5)，（3,7)，（2,7)通到小格（1，7) 

的钩子。类似地，行 j 包含有所有的钩子长度72^ + 772 ~ 1，但不包括 （ 7 lj + 771 ~ 

+ 此 得出所 有钩子长度的乘积等 

于 

(72! + 772 _ 1 ) ! ( 72 2 + TYl ~ 2)\' m ' Tl m \ 

A( 72j + TTl - 1,72 2 + m ~ n m) 

这恰是等式 (34) 中的内容，所以我们就导出了由 J . S . Frame , G . de B . Robinson 以及 
R . M . Thrall [ Canadian ；. Math . 6 (1954)，316 〜 318] 所得出的受人赞誉的 结果： 


定理 H \ U 2, …， n \ 上的有一个确定形状的图表数是 ?i \ 除以钩子长度的乘 
积。 

既然是如此简单的规则，它应该有一个简单的证明。一个启发性的论证 进行： 
这个图表的每个元素在它的钩子中是最小的。如果随机地填图表，则小格 （ f ， j ) 包 
含对应钩子的极小元素的概率是钩子长度的倒数。对于所有的 i /求这些概率 
的乘积即给出定理 H 。 但不幸地是，这个论证是荒谬的，因为这些概率远不是独立 
的。尽管研究者们确实发现了很多有启发性的间接证明（习题35,36和38)，但直到 
1992年以前（见习题39)，基于正确使用钩子组合性质的定理 H 尚未有直接的证明。 

定理 H 同我们在第2章中所考虑的树的枚举有着有趣的联系。我们注意到，有 

n 个节点的二叉树对应于可通过一个找得到的排列，而且这样的排列对应于 n 个 S 
和 n 个 X 的那些序列…，其中当自左向右阅读时， S 的个数决不少于 X 的 

个数（见习题 2.2.1-3 和 2.3. 1-6)。后面的那些序列以自然的方式对应于形状为 
U ， n ) 的 图表； 我们在行1放置使得 a , = S 的下标而在行2中放置使得 a = X 的 

下标 z _。 例如，序列 

SSSXXSSXXSXX 

对应于图表 
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2 


10 


(37) 


4 


11 12 


在这个图表中，当且仅当自左向右读 x 的个数决不超过 s 的个数时，关于列的限制 
成立。由定理 H ， 形如 U ， n ) 的图表的数目是 


(2 n )\ 


( n 



1 ) ! n ! 


而这是二叉树的数目（同等式 2.3 




致) 


而且，如果对于 n > m 使用形状 


为 （ n ， m ) 的图表，那么这个论证解决了在习题 22 .1-4 的答案中考虑的，更为 




般 


的“抽签”问题。所以，定理 H 包括了某些颇为复杂的枚举问题作为简单的特殊情 
况。 


元素| 1 ， 2 , 


■藝# 


，2 n 丨上形状为 （ rz ， rz ) 的任何图表 A 按 MacMahon [ Com bina tory 


Analysis 


(1915),130 


131] 提出的如下方式对应于相同形状的两个图表 （ P ， Q )。 


设 P 由在 A 中出现的元素丨1，…， d 组成； Q 由剩下的元素转动180°,并分别以 n ， 


7Z _ 1 ， 




，1 代替《 + 1， n + 2 , 


a # # 


形成。例如， （37) 分成为 



和 


7 


10 


11 12 


对后者进行转动和更名就得到 


2 


P 


Q 


4 



(38) 


反之，任何一对至多两行的各有 n 个小格相等形状的图表，都以这样 


种方式对应 


于形状为的图表。因此由习题7,不包含递减子序列化>七>以（ 2 <7</0的 


U ，2， …， n \的排歹 lj a 02 的个数，为具有 n 个 节点 的二叉树的个数。 D . Rotem 
[Combinatory Analysis 1(1915) ，130〜131 ] 发现了在这样的排列和二叉树之间有一 * 
个有趣的 一一 对应，它较之这里已经使用的经由算法 I 的迂回（兜圈）方法更直接。 
类似地，在二叉树和对于 i <]< k 没有 hW 情形的排列之间，有着颇为直接 


0 


的对应（见习题 2.2. 1-5)。 

填写一个(6,4,4，1)形的图表的方式数，显然是把标号丨1，2, 
式放置到有向图的顶点的方式数 


■ ■國 


，15丨，以如下方 


rrrp- 


(39) 


这种放置的方式就是每当 Zi 




^时，顶点 w 的标号小于顶点 t 的标号。换言之，它 


是在 2.2.3 小节的意义下，对偏序 (39) 进行拓扑排序的方式数。 
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一 般说来，我们可以对不包含有向回路的任何有向图问同样的问题。如果有把 
定理 H 推广到任意有向图的某个简单的公式，那就 好了； 但并非所有的图都像对应 
于图表的图一样有这样令人高兴的性质。本节末尾的习题中讨论了某些其它类的 
有向图，对于它们来说，标号问题有一个简单的解。也还有一些习题，说明某些有向 
图没有对应于定理 H 的简单公式。例如，加标号的方式数不总是 72! 的一个 因子。 

为了完成我们的研究，我们来计算可以由〃个不同的元素形成的图表 总数； 并 
以~来表示这个数。由定理 B 的推论，~是丨1,2 ,…，的对合数。当且仅当一个 

排列的轮换形式仅由一元轮换（不动点）和二元轮换（对换）所组成时，这个排列是它 
自己的逆。由于~个对合中的个有一元轮换 U )， 且它们中的~_ 2 个有二元轮 

换 ( W ) (对于固定的 72), 得到公式 

t n = h + (n - l ) t n -2 (40) 

这是 Rothe 于 1800 年设计出来的，以便对于小的 n 造出~表。对于 n >0 的值是 


1,1,2,4,10,26,76,232,2620,9496, •• 

用另一种方式来计数时，假设有 



个二元轮换和 （n - ） 个一元轮换^有 


n 


种方法来选择不动点，且多项式系数 （20! K 2 \) k 是把其它元素 排成々 个不 


2 k 

同的转置的方 式数； 除以 A ! 使得转置是不加区别的，因此得到 


L”/2 」 


n 



⑴， 


n(k) 


n ! 


(n — 2 k )\2 k kl 


k = 0 


(41) 


可惜，这个和数没有简单的封闭形式（除非我们选择把 Hermke 多项式 i n 2 ~ nl2 Hn 


(- z / W ) 当做简单的多项式），所以可用两个间接的方法以得到对于~的更好的理 
解： 

a ) 可以找到生成函数 

J \ z n ln \ = 产 2/2 (42) 


见习题25。 

b ) 可以确定~的渐近特性。这是一个非常有启发性的问题，因为它包括某些 
在其它方面对我们有用的一般性技术，所以我们将以分析~的渐近特性来结束这 
一节。 

分析 (41) 渐近特性的头一步，是判明它对于和数的主要贡献。由于 


t n (k + 1) = (n - 2 k)(n -2 k - 1) 

t n ( k ) 2 (k + 1) 


(43) 


可以看到，从 6=0 直到当々近似于士（72 时， + 1)% U )， 这些项逐渐 

地 增加； 然后当 々超过 时它们又逐渐地减少成为0 。主要的贡献显然来自 k = \ 
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(n -^) 的附近。通常都喜欢把主要贡献安排在值为0处，所以写 


k — ~ \pn ) + x 


( 44 ) 


并把 ~ U ) 的大小看做的函数 


0 


摆脱 ~ U ) 中阶乘的 


个有用的方法是，使用斯特林近似公式，也就是等式 


.2.11.2-(18)。为此目的，把: r 限制在 


打’十1/4 ^ x ^ n 


/十 1/4 


(45) 


的范围内是方便的（我们马上就会见到），比如说，其中 


6 


0.001，使得可以把一个误 


差项包括进来。经过一个稍微麻烦的计算，作者曾经在60年代用手算它，但现在借 
助于计算机代数很容易就可完成，产生下列的公式 


n (k) =exp(^~ln w — -^-n 4- \pn - —In n - 2x 2 / \Hn —— 


4 


4 4 


2 ^ln 7t - -yx 3 /n + 2x1 + —/ y/~n - -yx 4 /n \fn 



0(72 


5(-314 


(46) 


(45) 中对: r 所做的限制是合理的，因为可以置 
的上限，即 


X 


± n 


1/4 


来给岀所有被舍弃的项 


e _ 2r7 expf 7 iIn n - -^n + V^rz - ~^ln n — ^ 


2 < 




2 


In k + 0( ” 3 ' - " 4 ) 


(47) 


而且如果乘以 n ， 则就得到所有被舍弃的项之和的上限。当 


X 


属于被限制的范围 


(45) 时，这个上限的阶小于所要计算的各项的阶，因为因子 exp ( -2 rz 2 0 比起 n 的任 
何多项式来都要小得多。 

显然，可以从这个和式中删去因式 


exp | ^-72 In n — + v^2 - -^-ln n - - -yin n + 



/ \f~n 


( 48 ) 


剩下的任务是在 


X 




a ， a + l ， a "， j 3-2， p—l 的范围上对 


4 


4 


exp [ — 2x 2 / \/~n — — j : 3 / n + 2x1 ^fn ~ — x 4 / n 4n + O ( n 5< ~^ 4 
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(~2 x 2 \ 

exp [~7 ^l 








X 




n^n 


(1 + o ( d ) 


(49) 


求和，其中 - a 和 p 近似地等于 n 〃 1/4 ( 不必是整数）。通过对求和区间的变换，欧拉 
求和公式，即等式 1.2.11. 2-(10)，可以写成 


2 /( 工 ) 



/( x)dx - 

a 






这里 I I I < (4/(2 丌 ) 爪 ) I I dz 。 如果设 f(x) - x l exp(- 2 工 2 / ^i) ， 其 

^ a 

中 Z 是一个固定的非负整数，欧拉求和公式将给出当 n — ① 时 E / U ) 的一个渐近 
级数，因为在这种情况下 

/ U) (:) : 72 ( 卜 … V w) ( 72 — 1/4 x )， g(y) = y〆 (51) 


且 My ) 是与 n 无关的一个很整齐的 函数； 导数 g U ) (30 是 y 的多项式乘以 e - 2 " 2 , 
因此 


R m 二 0( n (t + l ~ m)l4 )\ + \ g ( m ) ( y)\dy = 0( n (t + l ~ m)l4 ) 

J — oo 

而且，如果在 （50) 的右边以 - oo 和 + oo 来代替 a 和 P ， 则在每项中至多造成阶为 

0(exp ( - 2Y)) 的一个误差。于是 

广 oo 

XI /(工）= f ( x)dx + 0( n ~ m ) ,对于所有 m ^ 0 (52) 

a<ar<(3 」一 00 

给定 /(X) 的这个特定的选择，仅仅这个积分是真正有意义的！这个积分不难求值 
(见习题26)，所以可以乘出公式 (49) 并求和，这给出 

# 卜 1/4 - j- 4 n- 114 4 OU_ 1/2 ): 

于是， t n = - l 77 W2 e -,/ 2 + /^- iM / 1 + - L ^- i /2 + 0( n ~ 214 )) (53) 

V 2 V 24 ) 

实际上，在这里 O 项应该在指数中有一个额外的 9( ，但我们的处理方法使这样 

一 点变得显然了，即如果在中间计算中取更高的精确性，则这个 9( 就将消失。原则 
上，我们已经使用的这个方法可加以推广，以得到对于任意 A 的 0( n 〃）， 而不是 

• 60 . 


0 (n ~ 314 ) Q t n 的这一渐近级数，首先是由 Moser 和 W y man 确定的（使用不同的方 
法）， 见 Canadian J . Math . 7 ( 1955 ) ，159〜168。 

我们用来推导 （53) 的方法对于渐近分析来说是极为有用的一项技术，它是由 

P . S . Laplace [Memoires Acad . Sci . ( Paris , 1782) ，1 〜 88] 提出来的；详细的讨论请参 
见 CMafh ,§9.4 中的 “trading tails ”。 关于 tail - trading (尾部推销）的进 一 步的例子 

和推广，请参见 5.2.2 小节的结论。 



1 . [ i 6] 什么图表 （ P ， Q ) 对应于定理 A 的构造中的两行阵列 

12345678 9\ 

64957128 3/ 

什么两行阵列对应于图表 

"l | 4 | 7 

P = 28 Q = 

J _ 9 

2. [ M 2 J ] 证 明：当 且仅当 z 是使得 

Pi' < Pi, < … < Pi = P ， < *'• < Qi = q 

12 t 12 t 

的下标 2 l ， i 2 , … 4 的最大个数时，属于相对于 （16) 而言的类“ 

► 3.[ M 24] 证明在定理 A 的证明中，所定义的对应关系也可通过构造如下的一张表来得到 

行0 1 3 5 6 8 

行 1 7 2 9 5 3 





行4 oo 

这里行0和行1即是给定的两行阵列。对于々>1，行々+ 1通过下列步骤由行々 形成： 

a ) 置 p — 00 。 

b ) 设第列是具有下列性质的诸列中最左边的列， gp : 该列的第々行包含一个</>的整数，但 

第々+ 1行是空白。如果不存在这样的列，且如果；> =沉，则第々+ 1行就完 成了； 如果不存在这 
样的列且 p < oo , 则返回 a )。 

c ) 把 > 插入到第々+ 1行的第 ； 列中，然后置等于第々行第 ; •列处的项，并且返回 b 。 

一旦这张表以这样的方式构造出来， P 的第々 行就由这张表的第々行中，那些不在该表的第 

U + 1) 行中的整数所 组成； Q 的第々行由在这张表的第0行中那样一些整数所组成，它们所在列 
的第 A + 1行均含有 00 。 

► 4. [ M 30 ] 设 q …屮―是不同元素的一个排列，并假定，如果 

i ) j >3 且〜_ 2 处于七^和七之间，或者 

ii ) j < n 且!处于〜 i 和~之间， 
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则由交换 屮 - t 和屮得到的排列 q … w 】 a } . y 七 + 1 称为“可允许的”。例如，对排列 
1 5 4 6 8 3 7实施的可允许交换恰有3 个； 由于1 < 4< 5，我们可以交换1和5;由于3<6<8(或者 
由于3<7<8)我们可以交换8和3;但我们不能交换5和4或3和7。 

a ) 证明通过把元素，…〜逐次插入到开始时为空的图表，一个可允许的交换不改变由 
排列所形成的图表 P 。 

b ) 反之，证明通过一个或多个可允许的交换组成的一个序列，有相同的 P 图表的任何两个排 
列可彼此进行转换[提示 ：给定 P 的形状是（~ ， / 7 2 ,…， 〜）。试证明对应于 P 的任何排列，通过 

一 个可允许交换的序列，可被转换成“规范排列” … Pu … p ln Pn -' Pi , Jo 

m 2 1 

► 5.[ M 22] 设 P 是对应于排列 q 的 图表； 利用习题 4 证明 P T 是对应于… a 2 q 的 

图表。 

6. [ M 26 ] ( M . P . Schiitzenberger ) 设 7 T 是具有々个不动点的一个对合，证明在定理 B 的推论的 
证明中，对应于； r 的图表恰有6个奇数长度的列。 

7. [ M 20 ] ( C . Schensted ) 设 P 是对应于排列力〜的图表。证明 P 中列的数目是一个递 

增子序列 a , < a , 〈… < ai 的最大长度 c ， 其中 “ChC — SzJP 中行的数目 是一 1 个递减子序列 

1 2 c 

〜> a 、> …> a ) 的最大长度 r ，其中 ji < j 2〈."〈 jr 。 

8 . [ Ml 8 ] [ P . Erdos , G . Szekeres ] 证明含有多于 个元素的任何排列，都有一个长度大于 ； 2 
的单调子序列，但却有；个元素的排列，且它无长度大于〃的单调子序列[提 示：见 前一习题]。 

9. [ M 24] 继续习题8,对于没有长度大于72的单调子序列的丨1，2, —，72 2 丨的排列，求岀一个 
“ 简单的”精确个数的公式。 

10. [ M 20] 证明若 P 开始时是一图表，则当算法 S 终止时， P 仍是一图表。 

11. [20] 仅仅给定算法 S 终止后的 r 和5之值，是否有可能按原来的条件恢复 P ? 

12. [ M 24] 如果反复地使用算法 S , 删去其形状如（^，《 2 ,…，〃 J 的一个图表 P 的所有元 

素，问步骤 S 3 被执行多少次？对于 Wl + 〃 2 + …的所有形状，这个量的最小值是多少？ 

13. [ M 28] 证明定理 C 。 

14. [ M 43] 找出定理 Dc ) 部分的一个更直接的证明。 

15. [ M 20] 多重集合|/^,772 *6, 有多少具有这样性质的排列，即当从左到右读这个排 
列时， c 的数目决不超过6的数目，而6的数目决不超过 a 的数目（例如，是这样 
一■个排列）？ 

16. [ M 08] 由 （39) 表示的偏序可以用多少种方式按拓扑排序？ 

17. [ HM 25] 设 

g{x i ,x 2 r- -,x n \y) = x x H{x v + y ,x n ) + 

工 2 ^ ，工 2 + y »■** y^r, )+•*• + •r„A(x 1 ， :c 2 ， … ， : c，，+ ： y) 

证明 


g(x l ,x 2 y''' >oc n \y) - 



工 1 + 工 2 + … + 工 n + 



[提 示： 多项式 g 是齐次的（所有的项都有相同的总次数）。而且，它是对诸 X 反对称的（交换 A 
和&会改变 g 的符号）]。 

IS . [ HM 30 ] 推广习题17,当 m >0 时计算和式 

+ : y ，工2 ，… ，工 n ) + X 2 A ( JCi y X 2 + : y ，…，工” ） + … 


+ ^^A(.r 1 ,x 2 ， … ， :c 77 + y) 
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19 .[ M 40 ] 求填写一个阵列的方式种数的公式，这个阵列和一个图表一样，但在行1的左边 


除去两个 方格； 例如 


^-2 个方格 
n 2 个方格 
77 3 个方格 


就是这样一个形状(行和列，如同在通常的图表中那样，是按递增顺序排列的）。 

换言之， ( 1,2, , n t + "■- + 1 上形状为 

( n r , n 2 , , n m ) 

的图表中，头行兼有元素1和元素2者有多少？ 

► 20. [M24] 对具有元素11，2,…， M 的一个给定二叉树的节点进行标号，使得每个节点的标 
号小于它的后裔的标号。证明这样加标号的方式种数，是 n! 除以“子树的长度”（即在每个子树中 
节点的个数）的乘积。例如，对 



的节点进行标号的方式种数是 = 参考定理 H)。 

21. [HM3J ](R.M.ThraU ) 设〜> …〉 rz m 确定一个“移位图表”的形状，其中行 i + 1从 

n i 的右边一个位置开始。例如，形状(7,5,4，1)的移位图表有图式 



试证明，把整数1，2, …， w = h + n 2 +…+ 安排到形如 （ 化， W 2 ,…， n w ) 的移位图表，使得行和 

列都有递增次序的方式数，是《!除以“广义钩子长度”的 乘积； 在上边的图式中，已经用阴影标出 
对应于1行2列方格的长度为11的广义钩子（阵列左边“倒楼梯”部分中的钩子，其形状为旋转 

90°的 U 形，而不是一个 L 形）。因此共有 

171/12 -11-8-7-5-4-1-9-6-5-3-2-5-4-2-1-1 

种方式，以行和列处于递增次序来填满这个形状。 
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22.[ M 39] 以集合丨1，2, …， 的元素填人形，…，、）的一个阵列，并且允许重 
复。问能有多少种方式，使得行是非减的，而列是严格递增的？例如简单的 m 行图形（1，1，…， 1) 

可以种方式来 填人； 1行的形状 （ m ) 可以 + 种方式 填人； 图形（2, 2) 可以 

\ m / \ m ! 


1 

3 


N + 1 \ ( N \ 

2 ID 种方式填人。 


► 23. [ HM 30]( D . Andre ) 把数11，2，…，《丨放置到《个格子的阵列 


中去，使得行和列处于递增的次序，问有多少种方式 AJ 求生成函数 g(z)^y：Ayln\o 
24.[M28 ] 证明 





0 ^ q g ^ m 

1 n 


f m 

Ui 




n 




nm 



—(n 2 — 



n ) \ 



/ m 
\ n - 



[提示：证明 A(^j + w - = _ 1，…， m — D; 以类似于 （38) 的方式分解一个 

n + 1 ) 的 图表； 并同推导 （ 36) 中那样处理这个和式。] 

25. [M20] 为什么 （42) 是对合的生成函数？ 

、oo 

26. [HM2J ] 当 z 是一个非负整数时，计算 Yexp (- 2x 2 i^)dxo 

J — oo 


27.[M 24] 设 Q 是丨1，2,…， nl 上的杨氏图表，元素；在行 q 和列 c , 中。当 r,<。 时，我们说 
Z ‘在/‘之上”。 

a) 证明 ：对于 l<i <〜 当且仅当6>~ + 1 时 f 在 f + 1 之上。 

b) 给定 Q 使得 （P，Q) 对应于排列 

/ 1 2 … n \ 

\^1 ^2 … j 

证明 i 在 i + l 之上，当且仅当+>~ + 1 (因此只要知道 Q， 就能确定排列中路段的个数。这一结 

果属于 M. P. Schiitzenberger) 0 

c) 证明，对于在 Q 中；在 i + 1 之上，当且仅当在 Q s 中；+ 1是在 f 之上。 

2S.[M43] 证明丨1，2,…，糾的一个随机排列的最长递增子序列的平均长度近似于 2/7( 其 
对应于定理 A 中行1的平均长度）。 

29.[HM25] 试证明 rz 个元素的一个随机排列，有长度>/的一个递增子序列的概率< ( ^ 


l\o 当 / = eV ^ + 0(1) 时，这个概率是 0( l / v 5) ; 而当/ = 3/^/二61113-6时，这个概率是 

0( exp ( - (: ▲)) 。 
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30. [ M 41 ] ( M . P . Schiitzenberger ) 证明从 P 到户所进行的操作，是应用于任何有限偏序集合 
(而不仅仅是图表）的一个操作的特殊 情况： 用整数|1，2, …，； il 来对一个偏序集的元素进行标号， 
使得偏序同标号相一致。用类似于算法 S 的方式移动其它标号，同时逐次地删去标号1，2, … ，并 
且把1,2,…放置在空了的位置上，试求类似于 （26) 的一个对偶标号。证明当以相反的数值次序 
重复对偶标号时，这个操作产生原来的标号。另外请剖析这个操作的其它性质。 

31. [ HM 30] 设^为在一个 n X 〃的棋盘上，放置《个互不冲突的车的方式数，其中每种放 

置通过两个对角线的反射均保持不变。于是有工 4 = 6(对合被要求仅关于一个对角线是对称的。 
习题 5.1.3-19 考虑了一个相关的问题）。试求的渐近特性。 

32. [ HM 21] 试证明当 X 为有均值1和方差1的标准离差时，~是： T 的期望值。 

33. [ M 25] ( O . H . Mitchel ,1881) 真或 假：当 …，〜是整数时， △(〜 ， a 2 ，…， a 1， 

2,… ， m ) 是一个整数。 

34. [25] ( T . Nakayama ,1940) 试证明，如果一个图表形包含长度为的一个钩子，则它也 
包含长度为 a 的一个钩子。 

35. [30] ( A . P . Hi [[ man 和 R . M . Grassl , 1976) 当行 f 有义个格子，列 j 有< 个格子时，如果 
2 pi } = 且 

Ai > …> A ". ，广 u > … > 九."，对于 1 < ; < ，1 < j < «i 

1 J 

则在一个图表形中对非负整数 & 的一个安排，称做 w 的一个平面分划。而如果代之以 

…€ Pin .， P\j 6…< / Vj ， 对于 1 < ^ > 1 ^ j < 

2 ) 

则称它为逆平面分划 D 

考虑下列算法，它实现对于一个给定形状的逆平面分划，并且构造有相同形状的数如的另 一 
个 数组： 

G 1. [初始化]对于1 < j < w , .和1 <<7?\，置知 — 0。然后置 jtl 。 

G 2 •[求非零的格子]如果> 0，置 ； — <， A — j ，并继续步骤 G 3 。否则，如果 j 〈 n i ，则 j 
增加1并重复此步骤。否则停止 （/> 数组现在为零）。 

G 3 .[尸减少]心减1。 

G 4 .[向上或向右移动]如果；>1，且1，并返回 G 3。 否则如果 k < n if M 
々加1并返回 G 3。 

G 5 ■[增加 g ] &加1并返回 G 2。 ■ 



(过设 计从诸 g 重新计算诸^的算法，试证明，这一构造定义 


的逆平面分划和方程 



的解之间的 一一 对应，其中数〜是这个形状的钩长。 

36.[ HM 27] ( R . P . Stanley , 1971) ( a ) 试证明，在一个给定的形状中， m 的逆平面分划的个数 


为[^]1/110 -=、），其中数\是这个形状的钩长。 （ b ) 由这个结果推导定理 H [提 示：当 m — 


〜时什么是诸分划的渐近个数]。 

37. [ M 20] ( P . A . MacMahon ,1912) 什么是所有平面分划的生成函数（当图表的形状为无限 
时，的系数应为 m 的平面分划的总数）？ 

38. [ M 30] ( Green ， Nij en hui S 及 Wilf ，1979) 通过令有向边从每个格子通到它钩子中的其它格 

子，在任何给定的图表形状的格子 了上 ，我们可以构造一个有向无循环 的图； 这样格子 （ i ， j ) 的出 
度 （ Outdegree ) 将为4 \ - 1，其中~为钩子的长度。假设通过选择一个随机的起始格子 （ 丨 ) 


* 
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并且随机选择进一步的有向边，我们在这个有向图中生成一个随机通路，直到不再有出口的一个 
角落格子为止。每个随机选择被一致地 作成： 


a ) 令 U ，6) 是了的一个角落格子，并设 


。1和 J 




九， …力 I 是满足 


• » • 






a 


和 J 0 < 


■ ■ 春 


<力= 6的行和列的集合。这个有向图包含 



条通路，其行和列的集合分别为 J 和 


令 P (/， J ) 为随机通路是这些通路之一的概率。试证明 


PUJ) 


1 / (ndi 


» ♦ ♦ 


d ： 


d 


d 


k~\ 


/-I 


其中 W 


Tlo 


b) 设 f ( T ) = n \ lnh h 0 试证明随机通路在角落 U，6) 处结束的概率为 /(T\ \( a y b)\)l 
f ( T ) 0 

c) 证明， 6) 的结果证明了定理 H, 也给了我们一个方法，来生成形状了的一个随机图表，而且 
所有/(了)个图表都同样可能。 

39. [ M 38] (I.M.Pak 和 A. V. Stoyanovskii, 1992) 设 P 是整数丨1，…， w 丨的任何排列所填满 


的形状为（~，… ，〜） 的数组，其中《 = ~ + 


» • » 


+、。下列的过程类似于 5.2.3 小节的“上移”算 


法，可以用来把 P 转换为一个图表。它也定义了一个同样形状的数组0,可以用来提供定理 H 
的一个组合 证明。 

P1 •[对 G_，j) 进行循环]以词典排序的逆序，对数组的所有格子（^)实施步骤 P2 和 P3( 即 
从底向上，且在每行从右向 左）； 然后停止。 

P2 [在 （f，j) 处固定 P] 置 JC -匕， 并且实施算法义（见下文）。 

P3 [调整 Q] 对于 j < k < s ， 置 —Q, u + 1 ) + 1， 并置 Q ^ i-ro I 

这里算法 S' 和 Schiitzenberger 的算法 S 相同，只是步骤 S1 和 S2 被稍微推广： 


Sll 初始化]置 

S2l 完成没有？]如果 ，置 P r 

(算法 S 实质上是 2 = 1，彳=1,尺=-^的特殊情况。） 


K 并终止。 


= oo 


的特殊情况。) 


例如，算法 P 把形如（3,3,2)的一个特殊数组以下列方式弄直，如果我们在步骤 P2 的开始处 
来观察数组 P 和 Q 的内容，而且以■为粗体的 字体： 


P 










Q 






10 


0-10 


-10 


0-1 

-10 


最后的结果是 


P 



Q 


10 


a) 如果 P 只不过是一个IX „的数组，算法 P 把它排序成为 「11… |n| 。 试说明在这种情况下 
Q 数组将包含什么？ 

b) 如果 P 是 n x 1而不是1 x /?， 试回答相同的问题。 

C) 证明，在一般情况下，我们将有 
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~ bj } ^ Qij ^ T i} 

其中 \ 是 （ f ， j ) 之下的格子数，而~是右边的格子数。于是，对于 Q y 可能的值的个数恰是即 
第 （ f ， j ) 个钩子的大小。 

d ) 如果我们能够证明算法 P ， 定义了以《!种方法填入原来的形状，和输岀数组 （ P ， Q ) 的对偶 
之间的 一一 对应（其中 P 是一个图表， Q 的元素满足 c ) 的条件），那么就可以建设性地证明定理 
H 。 因此我们要求算法 P 的一个逆。对于什么样的初始排列，算法 P 产生 2 X 2 的数组 Q = 
/ 0 — 1、 

lo 0 /° 

e ) 什么样的初始排列，根据算法 P 可转换成下列数组？ 



f ) 根据给定数组 （ P ， Q ) 的任何对偶（其中 P 是一个图表， Q 满足 c ) 的条件），试设计算法 P 的 
反序算法[提示 ：构造 一棵有向树，其顶点是格子 Gd )， 并有有向边 

(i yj) ( i ， j - 1 ) 如果 P / ( j - 1) > ^ { i ~ l)j 

(fji - 1 ， j) 如果 P / (广 1) < 

在 e ) 的例子中，我们有树 



这个树的诸通路显示了反序算法 P 的键码]。 

40. [ HM 43 ] 假设通过逐次地以这样一个方式来放置数1，2，一，《，即当放置 一 个新数时，每 

个可能性都是相同可能的。例如，利用这一过程， 图表⑴ 将以十•士 + * + • + • 

++ 1 +如+的概率被得到。 

试证明，对于得到的形状（~，77 2 ,…，％ ) 将以很高的概率有 m 〜和 W + 

n k + l ^ s/~m o 

41. [25] (图书馆中的无序问题）粗心的读者经常把书架上的书放回到错误的位置上。计算 
一 个图书馆中存在的无序数量的一个方式是，考虑在把所有的图书恢复到正确的位置之前，需要 
把一本书从一个位置取出并且插入到另一个位置的极小次数。 

于是设；是|1，2 ,…， W 1的一个排列， 一 个“删去-插入”操作对于某个丨和 j 把 7 T 

变成 

ai - x a 1 + x -- aja ^ j + x "' a n 或 a L ... a / z , a J + 1 … a , i … a ” 

• 67 • 




第 5 章排序 


令 di S (7 T ) 是将把 7 T 排成有序的“删去-插人”操作的极小次数。能否借助于 7 T 的较简单的特征来 

表达 dis ( 7 T ) ? 

► 42. [30] (基因组中的无序问题） Lobelia fervens DNA 有以的序列出现的 
基因，其中 g 代表从左至右的 反射； 同样的基因出现在烟草植物中，.但次序为 

总2尽3尽4客5尽6呈7。证明为了从尽1发2忌3忌4尽5尽6忌7得到忌2兒4兒5兒3兒？，对于子串需要5次“触 

发”操作（当 a ，/? 和7为串时，一个触发把 a /? y 变成 a / y )。 

43. [35] 继续上一题，试证明，为了对 gigi ^' gv 的任何重新排列 （ Rearrangement ) 进行排序， 

最多需要 n + 1 次触发。对于所有^>3,试构造需要 《 + 1 次触发的例子。 

44. [ M 37] 如果所有2\!个基因组的重排都是同样可能的，试证明，为对”个基因的一个随 

机排列进行排序，所要求触发的平均数大于 n _ H n 。 

5.2 内部排序 

让我们通过一项小实验，来开始有关好的“排序者队伍”的讨论。你将如何解决 
下面的程序设计问题？ 

“存储单元 只 + 1，只+2，尺+3，尺十4和只 十5包含 5 个数，试写出一个 计算机 
程序，使得当必要时，它重新把这些数排成为递增次序的。”（如果你已经熟悉某些排 
序方法，就请你尽量暂时忘掉 它们； 想像你头一次着手解决这个问题，没有任何关于 
怎样做的预先的知识。） 

在进一步往下阅读之前，要求你构造一个这个问题的解。 


在解决上述这个具有挑战性问题时所花费的时间，将在你阅读这一章时获得补 
偿。可能，你的解是下列类型 之一： 

A . 一个插 入排序 逐个考察诸项，每一个新的项被插入到相对于以前已排好 
序的诸项的适当位置上（这是许多玩桥牌者每抓一张牌时，对他们手中的牌进行排 
序的一种方式）。 

B . 一个交 换排序 如果发现某两项次序颠倒，则交换它们。重复这一过程直 
到不需要再作进一步的交换为止。 

C . 一个选 择排序 首先找到最小的（或最大的）项，并设法把它同余下的分开 

来； 然后选择下一个最小的（或最大的），等等。 

D . 一个枚 举排序 每个项都同其它项进行比较；一个项的最后位置由它超过 

的键码 （ Key ) 的个数确定。 

E . —个专 用排序 如同在本问题中所述的那样，它对5个元素进行排序，可能 

工作得很好，但却不能容易地推广到较大的项数。 

F . 一 种懒散的态度 在这种态度下你忽略了上面的建议，并且决定全然不去 

解决这个问题。对不起。现在你已经读得太远了，而且已经错过了时机。 

G . —项新的超级排序技术 它是对已知方法的明显改进（如果有，请立刻通知 

作者）。 
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如果这个问题比如说有1000项，而不只是5项，你可能已经发现了将在后边述 
及的更为精巧的技术。但无论如何，当着手解决一个新问题时，先找某些相当明显 
的解决方法，然后再试图来改进它，往往是明智的。上述的 A 、 B 和 C 引岀了几类重 
要的排序技术，它们是这些简单想法的深化。 

目前已经发明了许多不同的排序算法，我们将在本书讨论其中大约25个算法。 
这样颇使人惊讶的众多的方法，实际上还只是迄今已经想出的算法的一小 部分； 在 
我们的讨论中，将略去许多现在已被废弃的方法，或者仅仅简单地提及它们。为什 
么会有这么多的排序方法呢？在计算机的程序设计中，常有“为什么会有这样多的 
x 方法呢？”的问题，其中： r 就是某个问题的集合。这个问题的答案是 ：每种 方法都 
有它的优点和缺点，对于某些数据和硬件配置来说，它就有可能超过其它的方法。 
可惜，还不知道“最好的”排序 方法； 目前许多最好的方法，都是针对特定的机器，根 
据特定的目的，对特定对象迸行排序所得到的。用 Rudyard Kipling 的话说 ：“有 69 
种进行部落安置的方式，而且它们每一种都是对的。” 

一个好的想法是学习每种排序方法，它能帮助你具体的应用做出明智的选择。 
幸而，学习这些算法并不是一项艰难的任务，因为它们都以有趣的方式相互关联着。 

在本章开始时，已定义了将在排序研究中使用的基本术语和符号 ：记录 

Ri ， R 2 , … ， r n ( 1 ) 

有待按其键码 k 1 , x 2 ,-, k n 的非减次序进行排序，实质上要求找岀一个排列 
p ⑴ p (2).“ p ( N ) ，使得 

K P (i) ^ K p ⑵&… < K P ( N ) (2) 

在本节中，我们讨 论内部排序。 此时，有待排序的记录个数足够小，以致整个过程都 
能在一台计算机的高速存储器中实现。 

在某些情况下，会要求在存储器中对这些记录物理地重新排列，使得它们的键 
码按次序排列。但在另外的情况下，则可能只要指明这个排列的某个辅助表就够 
了。如果每个记录和/或键码要占用相当多的计算机存储器，则构造一个新的指向 
记录的链接地址表，并处理这些链接地址，而不是到处移动庞大的记录，通常更好 
些。这种方法称 为地址表排序 （见图6)。如果键码很短，但是记录的附属信息很 
长，则为了获得更高的速度，这个键码即可用作链接地址，这就是所谓键 码排序 。另 
一种排序方案利用了包括在每个记录中的一个辅助链接 字段; 链接的方式是使这些 
记录最终被链接在一起以形成一个直接的线性表，每个链接指向下一个记录，这就 
是所谓 表排序 （见图7)。 

在用地址表方法或表方法进行排序之后，诸记录可像所希望的那样，重新排成 
递增的顺序。习题10和12讨论了做这件事的有趣方法，只要求有足够容纳一个记 
录的附加存储空间 即可； 或者，可以简单地把这些记录都移到一个能容纳所有记录 
的新区域。后一方法通常 比头一 个方法快两倍，但它几乎要求两倍的存储空间。在 
许多应用中，全然不需要移动记录，因为对于随后的寻址操作而言，使用链接字段通 
常已足够了。 
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R 


尺2 


尺3 




Ri 


R3 



图6地址表排序 图7表排序 

我们将通过4个方面来说明将要深入讨论的所有排序方法，即 

a ) 算法的一个英语语言 描述； 

b ) —个 框图； 

c ) 一个 MIX 程序； 

d ) —个排序方法的示例，它应用于某个16个数的集合。 

为了方便起见， MIX 程序通常都假定键码是数值的，并且能放到一个单字 中去; 
有时，甚至把键码限制为一个字的一部分。次序关系“ < ”将是通常的算术 次序； 记 
录将只由键码组成，而没有附属的信息。这些假定使得程序更短和更容易理解。读 
者应当发现，使用地址表排序或表排序，能很容易地把程序改成一般通用的情况。 
对每个排序算法运行时间的分析，将通过 MIX 程序进行。 


通过计数进行排序 作为研究内部排序方法的一个简单示例，考虑在本节开头 
提出的“计数”思想。这个简单的方法是以这样一个思想为基础的，即在最后排好序 
的序列中，第 j 个键码恰恰大于 （ j -1) 个其它键码。换言之，如果知道某个键码确 
实超过27个其它键码，而且没有两个键码相同，则在排序之后对应的记录应当进入 
位置28。所以，这个思想是比较每对键码，计算有多少个键码小于每一个特定的键 
码。 


进行这些比较的明显方法是 

对于1 < i < N (对于1 < iV (比较冯和 KJ ) 


但容易看出，这些比较中有一半以上是多余的，因为没有必要把一个键码同它自己 
进行比较，也没有必要比较和&然后比较&和圪。我们只需要比较 


对于1 < z < N (对于1 < 2 (比较尺，和 K 2 .)) 

因此导出了下列算法。 


算法 C (比较计数） 本算法通过维护一张辅助表 COUNT [ 1 ] ,…， COUNT [ A /] ，对 

于小于一个给定键码的键码个数进行计数，来实现用键码 h ，…， K n 对记录 i ^， 
…, Rn 进行排序。算法结束时， COUNT [ j ] + 1确定记录的最后位置。 

C1. [清空 COUNT ] 把 C 0 UNT [1] 至 COUNT [ N ] 都置成0。 
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C 2 .[对 f 进行循环]对丨=尺，]\/-1，〜，2实施步骤03 ; 然后结束此算法。 

C 3 .[对 j 进行循环]对 j i - 1, i - 2，…，1实施步骤 C 4 。 

C 4 .[比较 Kr - Kj ] 如果 K t < K 3 , IJiy COUNT [ j ] 加 1，否则 COUNT [ i ] 加 1。 ■ 

注意，此算法不涉及记录的移动。它类似于地址表排序，因为 COUNT 表确定了 
这些记录最后的 安排; 但是由于 COUNT 。] 告诉我们往何处移动巧，而不是指岀哪一 

个记录应当被移动到民的位置，故它与地址表排序略有不同（因此在 COUNT 表中确 

定了排列 Ml ), …， MN ) 的逆，见 5.1.1 小节）。 



图8算法 C : 比较计数 

通过把比较计数算法应用于作者1963年3月19日随机地选择的16个数上, 
表1说明了这个算法的典型特性。同样的16个数将用于说明我们后面将要讨论的 
绝大多数方法。 

_ 表1计数排序（算法 C ) _ 

键码 503 087 512 061 908 170 897 275 653 426 154 509 612 677 765 703 

COUNT(init. )： 0000000000000000 

COCJNT(i= N) 000010100000001 12 

C0UNT( i = N - 1 ) ： 00002020000000 13 12 

C0UNT(i=N-2 )： 0000303000000 11 13 12 

C0UNT( i=N-3): 00004040 1 0009 11 13 12 

C0UNT(i = N-4) 0010505020079 11 13 12 

C0UNT(i=N-5 )： 1020616131279 11 13 12 


C0UNT(i = 2 )： 6 1 8 0 15 3 14 4 10 5 2 7 9 11 13 12 

在描述这个算法以前所进行的讨论中，我们轻率地假定没有任何两个键码相 
等。这个假定有潜在的危险，因为如果相等的键码对应于相等的 COUNT, 则这些记录 
的最后重新安排将是十分复杂的。幸而，如同习题2所示，不管出现多少相等的键 
码，算法 C 仍能给出正确的结果。 

程序 C (比较计数）以下是算法 C 的 MIX 实现。假定对于 KjSN ，氏存于 

单元工 NPUT + j 中，而 C0UNT[j] 存于单元 C0UNT + j 中； r IlEf ; r I 2 三 j ; r A 三三反; 
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rX=C0UNT[2'] o 


01 START 


02 


03 


04 


05 


ENT1 


N 


Ci . 清空 COUNT 


STZ 


COUNT, 1 


N 


COUNT[i] 一 0 


DEC1 


N 


J1P 


- 2 


N 


N>2>0 


ENT1 


N 


C 2 .对 i 进行循环 


06 

JMP 

IF 

i 


07 2H 

LDA 

INPUT, 1 

iV - 1 


08 

LDX 

COUNT, 1 

N- 1 


09 3H 

CMPA 

INPUT ， 2 

A 

C 4. 比较 H 

10 

JGE 

4F 

A 

如果 K t >K ; 则转移 

11 

LD3 

COUNT,2 

B 

COUNT[j] 

12 

工 NC3 

1 

B 

+ 1 

13 

ST3 

COUNT ， 2 

B 

^COUNT[j ] 

14 

JMP 

5F 

B 



15 

4H 

INCX 

1 

A-B 

16 

5H 

DEC2 

1 

A 

17 


J2P 

3B 

A 

18 


STX 

COUNT ， 1 

N ~ \ 

19 


DEC1 

1 

N-l 

20 

1H 

ENT2 

- 1,1 

N 

21 


J2P 

2B 

N 


COUNT[ 2 ] 一 COUNT[i] + 


C 3 .对 j 循环 


N^i>i>0 


这个程序的运行时间是 13 N + 6 A + 5 B -4 个单位，其中 iV 是记录 个数； A 是 


从 iV 个对象的集合中选择两个的数目，即 


N 

2 


( N 2 - N )/2； B 是满足且 
， K n 的反 序数； 这是在 5.1.1 小节 


> Ki 的下标对偶的数目。因此， B 是排列，…，的反 序数； 这是在 5.1.1 小节 

被深人分析过的量,在等式 5.1.1-(12) 和 5.1.1-( 13) 中，我们发现对于随机次序下 
的不相等的键码，我们有 


B 


(min 0 ,ave( N 2 - TV)/4 ， max( N 


N )/2, dev 


N(N - 1 )(N + 2.5)/6) 


因此程序 C 要求的时间单位在 3 N 2 + 10 N -4 和 5.5 N 2 + 7.5 N -4 之间，而平均运 


行时间在这两个极值的正中间。例如，表1中的数据有 iV 
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120, B 


41，所 
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以程序 C 将用1129个单位时间进行排序。关于程序 C 的一个改型，请看习题5,它 
有稍微不同的时间特征。 

在这个运行时间中占支配地位的因子 N 2 说明，当 N 很大时，算法 C 不是一个 
有效的方法。记录数加1倍，就会使运行时间增加3倍。由于这个方法要求比较所 
有不同的键码对偶 （ K ,，％)， 因此没有显而易见的方法来使它摆脱对于 N 2 的依赖 

性，尽管在这一章稍后将看到，利用“其它”技术，排序的最坏情况的运行时间可以减 
少到 NlogN 。 我们对于算法 C 的主要兴趣在于它的简便性，而不在于它的速度；算 
法 C 作为一个示例，表明了将要描述的更为复杂（和更为有效）的方法的风格。 

通过计数进行排序，还有另外一个方法，从有效性的观点看，它是十分重要的； 
它主要应用于有许多相同的键码出现，且所有的键码都落入范围 u < Kj < v 的情 

况，其中 （ a - w ) 很小。这些假定看来是十分严格的限制，但是事实上将看到这一思 
想有不少的应用。例如，如果把这个算法应用于键码的头几位数字，而不是整个键 

码，则这个文件将被部分地排序，而且完成这项任务将相当的简单。 

为了了解其中蕴涵的原理，假设所有的键码位于1和100之间。当第一遍扫描 
这个文件时，可以统计有多少个1，2,…，100 出现； 而在第二遍扫描时，就可以把这 
些记录移到输出区域中的适当位置。下列算法给出此过程的完整细节。 


算法 D (分布计数） 假定所有键码都是 u < K ; <v 范围中的整数，其中 

N 0 本算法利用一张辅助表 C 0 UNT [ w ]， …， COUNTS ] 对记录 R ^-'^ Rn 进行排序。 

算法结束时，这些记录以所希望的次序移到一个输出区域\，…，中去。 

D 1. [清空 COUNT ] 把 C 0 UMT [ w ] 至 C 0 UNT [ i ] 全部清成0。 

D 2 .[对 j 进行循环]对于 l < j < N 实施步骤 D 3; 然后转到 D 4。 

D 3. [ COUNTfi ^] 增值] COUNTfK ^] 的值增 1 0 

D 4 .[累加](这时 C 0 UNTU ] 是等于 i 的键码的个数。）对于2 = w + 1, ^ + 2 , 

•••,!；,a C 0 UNT [ z _]— C 0 UNT[f ] + COUNT [ i - l] D 

D 5 .[对 j 进行循环](这时 C 0 UNT [?] 是小于或等于 i 的键码的个数，特别是 

C 0 UNT [ t ；] = N 。） 对 j 二 N，N -U …， 1 实施步骤 D 6; 然后终止这个算法。 
D 6 .[输岀民]置 i ^ COUNT 及 COUNTlX W - l 。 I 



m 9 算法 d : 分布计数 
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这个算法的一个例子在习题6中 讨论； 在习题9中有一个 MIX 程序。当范围 V — U 
很小时，这个排序过程是非常快的。 

如同算法 C 这样通过比较计数进行的排序，首先是由 E . H . Friend 提出的 

[JACM 3(1956),152]，尽管他没有宣称这是他自己的发明。像在算法 D 中那样的 

分布排序，是由 H . Seward 于1954年首先提出的，他把这个方法同后边将讨论的基 

数排序技术一起使用（见 5.2.5 小节）；该方法 W . Feurzeig 也曾以 “ Mathsort ” 为名发 
表过，见 CACM 3(1960),601。 


习题 

1. [15] 如果在步骤 C 2 中， i 从2升到 N , 而不是从 N 降到2,算法 C 是否仍然有效？如果在 
步骤 C 3 中从1升到 f - 1又将如何呢？ 

2-[21] 证明当出现相等的键码时，算法 C 仍将正确地工作。如果 = K t 且_；<丨，则 R 在 
最后的编序下是在見之前还是之后出现？ 

►3* [21] 如果在步骤 C 4 中的比较从“&<尺/’变成为则算法 C 是否仍将正确工 

作？ 

4. [ M ] 写出一个 MIX 程序，它“完成”由程序 C 着手的 排序； 你的程序应把这些键码以递增的 
次序传送到单元 0 UTPUT + 1至 0 UTPUT + N 。 你的程序需要多少时间？ 

5. [22] 下列一组修改是否改进程序 C ? 

新添一行 08 a:INCX 0,2 

改变行 10 ：JGE 5 F 
改变行 14 :DECX 1 

删去行15。 

6. [ 18 ] 用手箅来模仿算法 D ， 说明当对 16个记录 5 T ,0 C ,5 U , 00,9. , IN , 8 S , 2 R , 6 A , 4 A , 1 G , 5 L , 
6 T , 6 I , 7 0, 7 N 进行排序时的中间结果。这里数字是键码，而字母信息附属于这些记录。 

7-[13] 算法 D 是一个“稳定的”排序方法吗？ 

8. []5]如果在步骤 D 5 中 j 从1升到/ V ,而不是从/ V 降到1,则算法 D 是否仍将正确地工 
作？ 

9. [23] 为算法 D 写出一个类似程序 C 和习题4的 MIX 程序来。作为 N 和 （ u - w ) 的函数， 
你的程序的运行时间等于多少？ 

10. [25] 试设计一个有效的算法，当给定 R ', …， R n 的值以及的排列/>(1)，…， 

MN ) 后，它分别以（心⑴，…， a ( n 〉） 代替 iv 个量（&，…，〜）。试避免使用过多的存储空间（如 

果希望在地址表排序之后，在存储器中重新安排这些记录，而不要求存储 2/ V 个记录的空间，就会 
出现这个问题）。 

n.[M27] 为习题10的算法写出一个 MIX 程序，并分析它的效率。 

► 12-[25] 试设计一个有效的算法，它适合于在完成表排序（图 7) 之后，把记录 〜，…，心按 
排好的次序重新排列。试避免使用过多的存储空间。 

► 13. [27] 算法 D 要求用于存放 2 N 个记录圮，…，*§!，■••,、的空间，证明 ：如果 用新的 

紧凑的过程来代替步骤 D 5 和 D 6, 则有可能仅需要存放 N 个记录，… ， J ? N 的空间（于是这个问 
题就成为在步骤 D 4 之后，根据值 C 0 UNT [ w ],--, C 0 UNT [ t ;] 设计一个适当地重新排列 &，…， R n 
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的箅法，而无须使用附加的存储 空间； 这实质上是习题 10 中所考虑问题的推 广〉。 

5 . 2.1 通过插入进行排序 

有一类重要的排序技术，是以 5.2 节开头处提到的“玩桥牌者”的方法为基础 
的。在考察记录民之前，假定以前的记录1^，…，已经排好序，然后把氏插人 

到已排好序的诸记录的适当位置。这个基本主题可以有若干有趣的变形。 

直 接插入 最简单的插入排序也是最显然的。假定 l < j < N ，而且已经把记录 
…，重新排列好，使得(记 住： 贯穿于本章，皆表示民的键码部分） 

<尺 2 < …< K 3 . x 

把新键码&依次地和，仏_ 2 ，…进行比较，直到发现民应当插入到记录尺和 

尺 / + 1 之间 为止； 然后把记录 尺 + 1 ，…，向上移动一格，并把新的记录放置到位置 

i + 1 处。如下列算法所示的那样，宜于把比较和移动操作组合在一起，互相穿插， 
由于 JR / ‘被安放到适当的层次中去”，这种排序方法通常称为筛选 （ h / ithg ) 或陷入 

( hnAirzg ") 技术。 

算法 S (直接插入排序）重新安排记录 R '， …， R n 到适当 位置； 在完成排序之 

后，它们的键码将是有序的，即有 K …。 

S 1. [对 j 进行循环]对于』_=2,3,*“，]\/实施步骤82到35 ; 然后终止本算法。 
S 2 •[给 i ， K ， R 赋值]置 K — Kj ，尺 — (在下列步骤中，将通过按 f 

的递减次序比较 K 和 K t ， 来试图把尺插入正确的位置）。 

5 3 . [比较如果则转向步骤 S 5( 我们已找到了记录只所求的 
位置）。 

5 4 . [移动 R 7 f i 减值]置尽 + 1 —尺，然后 i — i -1。 如果 i >0, 则返回到步骤 

y 

S 3( 如果 f =0， K 是目前找到的最小的键码，所以记录尺属于位置1)。 

55 . [ 只进入尺 + 1 ] 置 R i + 广 R 0 ■ 



图10算法 S : 直接插人 

表1表明，16个做例子的数，是如何通过算法 S 进行排序的。这个方法在计算机上 
是很容易实 现的； 事实上，下列的 MIX 程序是书中最短的，并且还不错的排序程序。 
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直接插入的例子 


503:087 


087 503 ： 512 


087 503 


061 087 


061 087 


061 087 


512: 

061 


503 

512:908 


A 


503 

512 

908:170 

170 

503 

512 908 


061 087 154 170 275 426 


061 087 154 170 275 426 


503 

509 

512 

612 

653 

677 

765 

A 

897 

908:703 

503 

509 

512 

612 

653 

677 

/\ 

703 

765 

897 908 



程序 S (直接插入排序) 


有待排序的记录在单元 INPUT + 1 至 INPUT + N 中，它 


们按一个全字长的键码在同一区域中就地排序。 


rll 


i - N ; rI 2 


i ;rA 


R 


K ; 假定 N >2 


01 

START 

ENT1 

2 - N 

i 

02 

2H 

LDA 

INPUT + N,1 

N- 1 

03 


ENT2 

N- 1,1 

N - 1 

04 

3H 

CMPA 

工 NPUT，2 

B + N - 1 

05 


JGE 

5F 

B 十 N-l 

06 

4H 

LDX 

INPUT，2 

B 

07 


STX 

INPUT + 1,2 

B 

08 


DEC2 

1 

B 

09 


J2P 

3B 

B 

10 

5H 

STA 

INPUT + 1,2 

N-l 

11 


工 NCI 

1 

N-l 

12 


JINP 

2B 

N-l 


SU 对 j 进行循环， 


S2 . 对 i,K,R 赋值 


i - 1 


S3 . 比较 K:K; 


如果 K>K t M 转到 S5 


S4 . 移动 U 减值 


R 


R 


i - 1 


如果 , i>Q, 则转到 S3 


S5.R 进入 




这个程序的运行时间为 9 B + 10 N -3 A -9 个单位，其中 iV 是被排序的记录 
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数， A 是在步骤 S 4 中 i 减小到0的次数，而 B 是移动的次数。显然， A 是对于 1 <j 
<"，&<(&，…， 次数； 这比自左到右的极小值的个数少1，所以 A 等价 

于在 1.2. 10小节中被深入分析的量。略加考虑又使我们看出 B 也是一个熟悉的 
量 ：对于 固定的7,移动的次数即是4的反序的个数。所以， B 是排列…， 
K n 的反序的个数。因此，由等式1.2.10-(16)，5.1.1_(12)和5.1.1-(13)，我们有 

A = (min 0, aveH N ~ 1, max N ~ 1 , dev V H^i — ); 

B = (min 0, ave ( N 2 - N )/4, max ( N 2 - ]V )/2, dev V N(N - 1 )(N + 2.5)/6); 

而且，假定输入键码是不同的并且是随机排列的，则程序 S 的平均运行时间是 
(2.25 iV 2 + 7.75 N -3 H N -6) w ，习题33说明了如何对此稍作改进。 

表1的例子包含有16 项； 有两个自左至右的极小值的变化，即087和061;而且 
同上一节我们所见到的那样，有41个反序。因此 N = 16, A =2, B =41，而总共的 

排序时间是514个时间单位。 

二叉插入和两路插入 在一个直接插人排序期间，在处 理第） 个记录时，平均 
■ 

说来要把它的键码大约同个此前已排好序的键码进行比较，因此所实施比较的 

总数大约是^~(1 + 2+…+ N ) 〜 + N 2 ; 当 iV 适当大时，这就已经非常之大了。在 

6.2.1 小节，将研究“二分查找”技术，该技术使我们能够在仅仅进行 lg N 次仔细选 
择的比较之后，就指出在哪里插入第 J 项。例如，当插入第64个记录时，可以由对 
K 64 和 K 32 进行比较开始。如果是小于，则就把它同 K 16 进行比较，但如果是大于， 

则就把它同 K 48 进行比较，等等。于是仅仅做6次比较之后，就可知道尺 64 应插人的 

位置。插人所有 iV 项所做的比较总数就大约是 NlgN ， 这是对于 | iV 2 的实质性的 

改进。而 6 . 2.1 小节表明，其相应的程序并不比直接插入程序复杂许多。这个方法 
称 为二叉 插入； 它早在1946年就由 John Mauchly 在计算机排序的第一个公开讨论 

中述及。 

二叉插人的困难是，它只解决了问题的一半。在已经发现记录民应插人到哪 

里之后，仍然需要移动大约个此前已排好序的记录，以便为民腾出位置，所以 

总共的运行时间实质上仍然同 N 2 成比例。某些早期的计算机(例如 IBM 705) 有一 
个内部的“滚进”指令，它以高速度来进行这样的移动操作，现代的机器通过附加的 
专 用软件 ，甚 至能更快地完成移动 操作； 但当 iV 增加时，对 N 2 的依赖性终将凸现出 
来。例如， H.Nagler 的分析 [CACM 3 (1960) ，618〜 620] 指出，当每个记录的长度 
为80个字符时，在 IBM 705上对多于约 N = 128个记录的排序不应推荐二叉插人; 

类似的分析对其它的机器也适用。 

当然，一个灵巧的程序员可以想出各种方法来减少所需移动的数量；头一个这 
样的技巧，如表2所示，是早在50年代时就被提出的。表中排序的头一项被放置在 
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一个输出区域的中心，而且通过向右或向左移动（就看哪种最方便）腾出空间。此法 
比普通二叉插入节省一半运行时间，其代价是程序稍微复杂一点。使用此法时，还 
可以不必使用比 N 个记录所需要的更多的空间（见习题 6); 但对于这个“两路”插人 
的方法，将不作更详细的叙述，因为已有了更为有趣的方法。 

表2 两路插入 

503 

A 

087 503 

A 

087 503 512 



061 

087 

503 

512 







A 




061 

087 

503 

512 

908 




A 





061 

087 

170 

503 

512 

908 






A 



061 

087 

170 

503 

512 

897 

908 



A 





061 087 

170 

275 

503 

512 

897 

908 


Shell 方法 如果有这样的一个排序算法，它一次只把诸项目移动一个位置，则 
它的平均运行时间最好也只是同 N 2 成比例。因为在这个排序过程中每个记录都 

必须平均遍历大约 + N 个位置(见习题7)。因此，如果要对直接插入做实质性的改 

进，就需要一种新原理，它使这些记录做长距离的跳跃，而不只是一些短促的小步挪 
动 。 

这样一个方法是由 Donald . L > Shell 于 1959年提出的 [CACM 2,7 (July 1959), 
30〜 32], 我们称它为 Shell 排序。表3说明了该方法的一般想 法：首 先把这16个记 
录分成为8组，两两一组，即 — 分别对每组记录 

进行排序，使我们进到表3的第2行，这称为“第一次扫描”。注意，154已同512交 
换了 位置; 908和897两者都跳到右边去了。现在把这些记录分成4组，每4个一 

组，即（ & ， & ，尺 9 ，只 13 ) ， … ，（尺 4 , 只 8 ，尺 12 ，及 16 ) ，并再次分别对每组进行排序，这 

“第二次扫描”使我们进到了第3行。第三次扫描对于各有8个记录的两个组进行 
排序，然后第四次扫描通过对所有16个记录进行排序，来完成整个过程。每个中间 
排序过程，或者处理比较短的文件，或者处理相当好地编了序的文件，所以每个排序 
操作可以使用直接 插入； 这些记录势必快速地收敛到它们的最终目标。 

Shell 排序也叫做“减少增量的排序”，因为每一遍通过一个增量 / i 来确定，使得 
我们对相距/ I 个单位的记录进行排序。增量8,4,2，1的序列不是一成不 变的； 任何 
序列，…，心都可以使用此方法，只要最后的增量/10 = 1就行。例如，表4示 
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示出了用增量7,5,3，1进行排序的相同数据。有些序列要比其它序列更好些，后面 
将讨论增量的选择。 

表 3 带有增量 8.4.2.1 的 Shell 排序 


503 087 512 061 908 170 897 275 653 426 154 509 612 677 765 703 


8- 排序: 



503 087 154 061 612 170 765 275 653 426 512 509 908 677 897 703 


4-排序: 



503 087 154 061 612 170 512 275 653 426 765 509 908 677 897 703 


2- 排序: 



154 061 503 087 512 170 612 275 653 426 765 509 897 677 908 703 


N 排序: 



061 087 154 170 275 426 503 509 512 612 653 677 703 765 897 908 


表4 


带有增量 7,5,3，1 的 Shell 排序 



算法 D ( SheU 排序）首先适当排列记录，…， 尺 / v ; 在完成排序之后，它们的 
键码将是有 序的： 用一个辅助的增量序列 ，…， h Q 来控制这 
个排序过程，其中“ = 1;适当选择增量可以显著地减少排序时间，当时，这个 
算法退化为算法 S 。 

D 1. [对 s 进行循环]对于 s = U -1，…，0实施步骤 D 2; 然后终止这个算法。 
D 2 .[对进行循环]置 A —/ i 5 ，并对 h < j < N 实施步骤 D 3 到 D 6( 我们将使 

用直接插人方法，来对隔开 A 个位置的元素进行排序，使得对于 

+ 。步骤 D 3 到 D 6 实际上分别与算法 S 中的步骤 S 2 到 S 5 

相同）。 

D 3 .[设置 f ，尺 ] 置 i—j _ h ， K — Kj — 民。 

D 4 .[比较 K ： KJ 如果则转到步骤 D 6。 
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D 5. [移动 R t ， i 减值]置 尺 1 + /1 —心，然后 i — i - h 。 如果 f >0,则转回步骤 

D 4。 


D 6 .[R 进入尺 J 置 R i + h — R 0 


对应的 MIX 程序不比直接插人程序长很多，下列代码中的行是从程序 S 
直接翻译过来的，成为算法 D 这个更一般的结构的一部分。 

程序 D(SheU 排序） 我们假定这些增量被存储于一个辅助表中，/在单元 H 

+ s 中； 所有的增量都小于 JV 。 寄存器 分配： -N;rI2 三 z ; rAE 尺 = K;rI3 三 

s ； rl4=h 0 注意，这个程序是自修改的，为的是要得到内部循环的有效执行。 


01 

1 ENT3 

T- 1 

02 1H 

LD4 

H，3 

03 

ENT1 

INPUT，4 


1 D 1. 对 s 进行循环 。 r -1 

T D 2 .对进行 循环 。 h — h s 

T 修改主循环中3条指令的地址 


04 ST1 5F(0 ： 2) T 

05 ST1 6F(0 ： 2) T 


06 ENN1 - N，4 

07 ST1 3F(0 ： 2) 


T rll <- N - h 

T 


08 

09 2H 

10 3H 

11 4H 

12 

13 

14 5H 

15 

16 

17 6H 


18 7H 

19 

20 


ENT1 1-N,4 
LDA INPUT 十 N,1 
ENT2 N — H,l 
CMPA INPUT,2 
JGE 6F 
LDX INPUT,2. 
STX INPUT+ H,2 
DEC2 0,4 
J2P 4B 
STA INPUT+H，2 

INC1 1 
J1NP 2B 
DEC3 1 


T j — + 1 

NT - S D 3 .对 i ， K，R 赋值 

NT - S j -/? (被修改的指令） 

B + NT - S-A D 4. 比较 K'l 

B + NT - S - A 如果则转到 D 6 

B D 5 .移动 R i } i 减值 

B 尺 + — R (被修改的指令） 

B i — i — h 

B 如果 i >0, 则转到 D 4 

NT - S D 6 .尺进 A 尺+ a (被修改的指令) 
NT - S j ” + l 

NT - S 如果 j </ V ， 则转到 D 3 

T 
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*SheU 方法的分析 为了选择好的用于算法 D 中的增量序列 h t ，…， h Q ，需要 

把运行时间作为这些增量的函数来分析。这导致了某些更迷惑人的数学问题，至今 
犹未完全 解决; 还没有人能够确定：对于很大的 N 值，最好的增量序列是什么？但 
是关于 Shell 减少增量排序的特性，已经知道了大量有趣的事实，我们将在这里作一 
概述。细节在以下的习题中给出（不专长于数学的读者可以跳过下面数页，自公式 
(12) 后的表插入的讨论处继续阅读）。 

程序 D 的频率计数指出有5个因素确定执行时 间：文 件大小 iV ; 扫描次数（即增 
量的个数）增量的和 S = /io 十… + /1/-1; 比较的次数 B + ATT - S - A ;以及移 


动的次数 B 。 如同在程序 S 中分析的那样， A 实质上是在中间的排序操作中遇到 
的自左到右的极小值的数目， B 是诸子文件中的反序数。对运行时间起支配作用的 
因素是 B ， 所以我们将把大部分注意力集中于此。为了进行分析，将假定键码是不 
同的，且开始时是处于随机的顺序之下。 

我们把步骤 D 2 的操作称为排 00 
序”，于是， Shell 方法由排序，接着 

是\_ 2 ，…，最后是排序所组成。对 
于 — / i ， 满足 + 的文 

件，称为“/ I 有序”的文件。 


01 


02 


当恰有两个增量 h =2和/1 0 


1 



时，首先考虑直接插入的最简单的推 

，第二次扫描开始于一 

个2有序 ordered ) 的键码序列 K 】， 

K 2 ，…， Kn 。 容易看出，对于 


- 2，使得 


+ 2 


的 U ，2, 


， n 丨的排60 


列 a ^ 2 的个数是 


n 



06 


07 


■ 

■ 

4 

26 

5 

27 

3 

36 

4 

37 


3 

47 

1 

56 

2 

57 


7 


6 


5 


3 


70 


5 


80 


86 


87 


Vni2\ 

因为若任选 L 〃/2」 个元素放入偶数号位 
置…中， 剩下的「 W 21 个元素放入 

奇数号位置中，则由每次这种选择我们 
正好得到一个2有序排列。在一个随 
机文件已经2排序之后，每种2有序排 

列都是同等可能的。在所有这样的排列当中，反序的平均个数是多少呢？ 

设 A „ 是在 U ，2, …，刹的所有2有序排列当中的反序总数。显然 A !=0, A 2 

， A 3 = 2;通过考虑下面6种情况 


图11在2有序和一个格子通路之间 
的对应关系斜体数字是权，它对应于 

2有序排列中的反序数 
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1324 1234 1243 2134 2143 3142 

我们发现 A 4 = l + 0 + 1 + 1 + 2 + 3 = 8 o 为了一般地研究 A „ ，考虑对于 = 15 ， 图11 

所示的“格子框图”。|1，2,…， M 的一个2有序排列可以表示为，从左上角的点（0, 
0) 到右下角的点（「 / i /2 l ， Ltz /2」） 的一条通路，如果根据在这个排列中，々出现于奇数 
或偶数位置而分别作向下或向右的第々步通路的话。这个规则确定了 2有序排列， 
与格子框图的角到角的72步通路之间的 一一 对应。例如，图11中由黑线所示的通 
路对应于排列 



由 Stirling (斯特林）近似公式，这渐近于\/ 7 r / l 28 rz 3/2 ^0. 15 77 3/2 0 容易看出反序的极 
大个数是 

Ln / 2 j + 1 \ 1 2 

2 / 8 

如同在习题15中那样，考察生成函数 

h { (z) = 1 

ll2(Z) = 1 + Z 



5.2 内部排序 



h 3 (z) = 1 + 

h 4 (z) = 1 十 3z + z 2 十 z 3 


… ⑶ 

以便更加仔细地研究反序的分布，是有教益的。这样一来，我们就发现了标准差也 

同一 /2 成比例。所以，这个分布相对于平均值来说不是非常稳定的。 


现在来考虑，当增量是/!和1时，算法 D 的一般的两次扫描的 情况: 


定理 H 在丨1，2, 


_龜_ 


， n \ 的 


个 h 有序的排列中，反序的平均数是 


f ( n ， h ) 


2 2q ~ l g\q\ 


(2 q 



h \ 




q(q + 1) + 





(^ + 1)- 


1 (h - r \ \ 


2 


2 




(4) 


其中， 


Q 


_nl h ] ， r = n mod h 


O 


这个定理是 


H . Hunt 给出的 [ Bachelor’s thesis 


University 


(April 1967 ) ] 0 注意，当 h^n 时，这一^公式正确地给出 /( n 


n 


2 12 


o 


证明一个 a 有序的排列包含长度为 g +1的 r 个排好序的子序列，和长度为 
g 的 /i - r 个排好序的子序列。每个反序都来自一对不同的子序列，而且在一个随 
机的 A 有序的排列中，给定的一对不同的子序列都定义一个随机的2有序的排列。 
因此，反序的平均个数等于在每对不同子序列之间反序的平均个数之和，即 


/r \ 
\2) 

推论 



2 g +1 

Hq + 1 \ 

V q I 


_ r\ A 2q 

V 2 / (2q \ 



如果增量序列 h t -^ …，卜，1^满足条件 


f ( n y h ) 



A s+1 mod h s = 0 对于 it - 1 > ■? > 0 (5) 

则在算法 D 中移动操作的平均次数是 

2 ( r /( + 1， " 1 / \ ) + ( 人5 _ f (^ q s ， h s+ \J h s )') ( 6 ) 

<>.^i 

其中 r s = N mod h s ， q s 二 \_ NIh 丄 h t = Nh t _ i ， f 在⑷中定义。 

证明 h s 排序的过程由对长度为 g + 1 的 r5 个（/^^/乂）有序的子文件，以及长 
度为 的（乂 - G) 个这样的子文件，进行直接插人排序所组成。整除性条件意味 
着，在每种 （A 5 + 1 //^) 有序排列都是同等可能的意义下，每个子文件都是随机的 
(乂 + lMJ 有序的排列，因为我们假定原来的输人是不同元素的一个随机排列。 ■ 


当增量分别为 A 和1时，在这个推论中的条件 （5) 对于两次扫描的 Shell 排序总 
是满足的。如果 g = LN // i 」 且 r = N mod / i ， 则程序 D 中的量 B 的平均值将为 

r f(q + 1, N ) + (h - r )/( q , N ) + f ( N y h ) 


r 


2 


(q + n 

, 2 j 



h - r (q 


2 


2 ) 


+ f ( N ， h ) 


对于第一次近似，函数 /( T 2 ,/ i ) 等于(7^/8) 72 3/2 ；1 1/2 ; 例如当 n =64时，我们可把它同 
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图12的光滑曲线相对照。因此两次扫1100 
描的程序 D 的运行时间近似于同 2 N 2 / ⑴ Q() 

h + ttN 3 /? 成比例。而 / i 的最好选择900 


近似于 


3 


16 A //7 T 七 1.72 而且通过 


这样选择的 A ，我们得到同 iV 5/3 成比例 
的平均运行时间。 


800 

700 


于是，可以仅仅通过使用具有两个 600 


增量的 Shell 方法，就能对直接插入法做 500 


出实质性的改进，由 0( N 2 ) 变成_ 
0 (]\^ 667 ：^显然当使用更多的增量时， 
甚至可以做得更好。习题18讨论了当 300 


t 固定且当诸/2 受整除性条件限制时200 


h t -' ，…， h Q 的最佳选择；对于很大的 J00 
iV ， 运行时间减少到 o ( yw 2 )， 其中 
6 二1/(2<-1)。我们不能通过使用上述 ° 



公式突破 iv 15 的壁垒，因为最后的扫描 
总是要对这个和提供个反序。 


图 12 n 个元素 （W =64) 的 /i 有 
序文件中的反序平均数 /( n ,/0 


h 


f(N ， hO 义 (^r/8)N 3/2 /il /2 


但是凭直觉就知道，当增量 h t ，…， h Q 不满足整除性条件 （5) 时，甚至能做得更 

好。例如，8排序继之以4排序，再继之以2排序的方法不允许在偶位置和奇位置的 
键码之间有任何相互 作用； 因此，最后的1排序扫描不可避免地面临 0( N 3/2 ) 个反 
序。相反，7排序继之5排序，再继之以3排序，以这样的方式交叉掺杂，最后的1排 
序扫描就不会遇到多于 2 iV 个反序（见习题 26)! 确实，这里出现了一个令人吃惊的 

现象： 

定理 K 如果一个 k 有序的文件被 h 排序，则它保持为 k 有序的。 

于是，首先是7排序，然后是5排序的一个文件，变成为既是7有序的，又是5 
有序的^而如果对它进行3排序，则结果是7,5和3有序的。这个值得注意的性质 
的例子如表4所示。 

证明习题20 表明，这个定理是下列事实的一个 推论： 

引理 L 设 m ， n ， r 是非负整数，且 (: r :，…，: r ) 和（: y! ，…，: r ) 是任意数 
列，满足 


y 1 工 m + l ， 3^2 工 m+2 ， . • • ， 3V + r (7) 

如果诸 x 和诸 y 被独立地排序，使得: C & … + r 和 yA — < y ， 1 + r ，则关系 （7) 仍将 

成立。 
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证明已知除 m 个之外，所有的： r 都高于（即大于或等于）某个这里，不同 
的： r 高于不同的 设由于在排序之后高于 m + j 个: r ， 它至少高 

于^/个 3 S 所以它髙于最小的 J /个 3 S 因此在排序之后 ■ ■ 

定理 K 表明，通过互素增量来进行排序是令人满意的，但它并不直接导致对在 
算法 D 中所做移动次数的精确估计。由于既是 / i 有序 又是々 有序的 i 1,2,…， rz 丨的 
排列个数，并不总是 n ! 的一个因子，我们可以看到，定理 K 并不提供一切 详情； 在进 
行々排序和 A 排序之后，某些 々和 / i 有序的文件，比起其它文件更为经常出现。因 
此，当〖>3时，对于一般的增量 / i , M ， …， / lo , 对于这个算法的平均情况的分析，至今 

使人们困惑不已。当给定 N 和 / z Q ) 时，甚至没有一个明显的方法来求最 

坏的情况。然而，当增量有某种形式时，关于近似的极大运行时间，我们能够推导岀 
若干个结果出来。 

定理 P 当圮 = 2 i + 1 - 1,0 <〆 Z = LlgiV 」 时，算法 D 的运行时间是 0( N 212 )。 
证明只需对于第 s 次扫描中的移动 次数氏 给出上限，使得+… + B 0 = 

0( iV 3 /2 ) 就可以了。对于在前02次扫描期间，可以使用显然的界限 
( B 0 und ) B s = OU 5 ( N / A 5 ) 2 ) ; 而对于随后的扫描，可以使用习题23的结果，氏= 

0( Nh s + 2 h s + J / i 》； 因此 ， Bi + …+ Bq = 0( A /(2 + 2 2 + …+ 2" 2 + 2" 2 + …+ 2)) - 

0( N 312 )。 I 


这个定理是 A . A . Papernov 和 G . V \ Stasevich 给出的 ，见 Problemy Peredachi 

Informatsii 1,3 (1965) ，81 〜98。它给出了这个算法的最坏运行时间的上限，而不只 
是平均运行时间的一个界限。由于当诸 A 满足整除性约定 （5) 时，最坏运行时间是 
N 2 阶的，这个结果是不平 凡的； 而且习题24表明 ：指数 3/2已不能再降低了。 

1969年 Vaughan Pratt 发现了定理 P 的一个有趣的改进:如果被选择的增量是 
形如 W 的所有数的集合，它们都是小于 N 的，则算法 D 的运行时间是 N ( hgN ) 2 
阶的。在这种情况下，还可以对这个算法做若干重要的简化。参见习题30和31。 
然而，即使有这些简化， Pratt 的方法由于要对数据做相当多次的扫描，因此仍需要 
一个很大的开销。所以在实践中，他的增量实际上并不比定理 P 的排序时间更快 
些，除非 iV 是天文数字似地大。对于现实的 N 的最好序列看来要满足圮〜 〆 ，其中 

比例 p ^ h s + l / h s 大体上与 s 无关，但可能依赖于/ V 。 

我们已经注意到，以这样一种方式，即每一个增量都是它的所有前驱者的因子， 
来选择增量是不明智的。但是，我们将不作出结论说,最好的增量是同它的所有前 
驱互素的。事实上，当我们是在 g 排序时，既是劝排序又是於排序且 A 丄々 的一 

个文件的每个元素至多有 - 1 )U - 1) 个反序（见习题21)。通过分析这个事 


实，当 JV — oo 时 Pratt 的序列获胜，但是对于实用的目的说来它提髙得太小。 

Janet Incerpi 和 Robert Sedgewick \J . Comp . Syst . Sci . 31 (1985) ,210 〜 224; 又见 
Lecture Notes in Comp . Sci . 1136 (1996) ， 1 〜 11 ] 通过说明如何构造满足 / i 产 〆 ，而 
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且每个增量还是它的两个前驱者的最高公因子，找到理论和实践两方面都最好的增 
量序列。给定任何数~>1，他们从定义一个 基序列 …开始（其中&为 

的最小整数），使得对于丄％。例如，如果 ^ = 2. 5,这个基序列为 


a 1 > ? ^3 


參 ■嘐 




3,7，16,41，101，247,613，1529,3821，9539, 


馨纔蠡 


现在通过置 / i Q = i 和对于 


r 


2 / 


< 


/r + l\ 


2 


，置 


h 


S 


h 


r^r 


⑻ 


定义增量。因此增量序列开始于 


\ CL \ 9 j CI1CL29CI1CL2J ^2 2 ^ 3 ^ CL \ Ci^Ci^\ ••• 

例如，当 p = 2. 5时，我们得到 

1,3,7,21,48,112,336,861,1968,4592,13776,33936,86861,198768, 
关键点是我们可以把递推式 （8) 转过来 


黪.嘐 


h 


s 


h r s I a r 


h 


r 


2 


a 



对于 



- 1、 

2 , 


< 5 < 


r 


2 1 


⑼ 


因此，由上一段中的论证，当我们进行 A q _ 排序， ； m - 排序…时，每个元素的反序个数 
至多为 


b(a 2 . 


a 



m 


( <2 3 ? (2 2 ) » ^ ( <2 3 , <2 [ ) 5 ( <2 4 , <2 3 ) , ( <2 4 , <2 2 ) ，办 ; 


( 10 ) 


其中 △(/!，々）= 貪 （/i - 1 )U - 1)。 如果 〆 <<〜< 〆 ，移动的总数 B 至多是 N 乘 

以这个序列的头 z 个元素之和。因此（参见习题41)，我们可以证明，最坏情况的运 
行时间比 iV 15 的阶要好得多。 


定理 I 当增量心由（8)定义时，算法 D 的运行时间为 O ( Ne ^ y )。 这里 c = 
并且由 O 所隐含的常数依赖于 P 。 I 

当 N — 〜时这个渐近上限并不特别重要，因为 Pratt 的序列就做得很好。定理 
I 主要是具有实际增长率 h s ^ p s 的一个增量序列，当给定任何 p >\ 的值时，可以保 

证对于任意小的 <>0,是 0( iV 1 + ( ) 的。 

让我们通过考察程序 D 的总共的运行时间，即 （9 B + WNT +13 T -10 S -3 A 
十1)〃，来更仔细地考虑 iV 的实际大小。表5所示为当 N = 8 时，对于各种增量序 
列的平均运行时间。对于这个小的 N 值，簿记操作是费用的最重要部分。因此当 z 
=1时得到最好的 结果； 因此，对于 N = 8, 使用简单的直接插入更好（当 N = 8 时程 
序 S 的平均运行时间仅为191.85〃）。奇怪的是，当^=6时，出现最好的两遍扫描 

算法，因为在这里大的 S 值要比小的 B 值更为重要。类似地，三个增量3 2 1极小 
化平均移动次数，但它们并不导致最好的三次扫描序列。在这里来记录极大化移动 
次数的某些排列的“最坏情况”可能是有趣的，因为对于这样的排列的一般结构仍然 
是未知的： 
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h 

h 



3, h 


3,/i 0 

2 ， /i 0 


■ 

_ 




9 

儀 


85263741 

83572461 


表 5 


当 N 




(19 次移动） 

(17 次移动） 

8 时，对算法 D 的分析 



当 N 增长得更大时，我们有一个稍微不同的情况。表6所示为当 N 


1000时, 


各种增量序列的近似移动次数，最初的几项满足整除性限制 （5), 使得 可以使 用公式 
(6) 和习题19;通过使用经验检验 （Empirical tests ) 可以得到其他情况的近似平均 


值 


0 


生成了 1000个元素的 


万个随机文件，而且它们每一个都用每个增量序列加 


以排序。自左至右的极小 A 的数的标准差通常约为15;移动次数 B 的标准差通常 

约为3000 

在这些数据中某些模式是明显的，但算法 Z ) 的行为仍然是非常模糊的 。 Shell 
最初建议使用增量[~/2」1以/4」丄以/8」，一，但当以的表示包含一长串0时，这是 


不合适的。 Lazarus 和 Frank [ CAC'M 


(1960),20 




22] 建议使用实质上相同的序 


列，但必要时加 


以使所有增量都成为奇数。 Hibbard[CACM 6 (1963) ,206〜 213] 


建议使用形如 Y -1 的 增量； Papernov 和 Stasevich 建议使用形如 2* + 1的增量。表 


中研究的其它自然序列包含数 （2+ - ( - 1)0/3、 （3 


1)/2 以及斐波那契数，和对 


于 


2.5 和 


2 的 Incerpi-Sedgewick 序列 （ 8 )，另外还示出类似 Pratt 的序列 


|5>11叫和|7>13叫，因为它们保留 0( N ( logN ) 2 ) 的渐近特性，但对于小的 N 有较 
低的开销费用。表6中最后的一些例子来自于由 Sedgewick 设计的另外的序列，它 
们基于稍微不同的带启发式的探索 [/. Algorithms . 1 (1986) , 159〜 173] : 


h 


9.2 s - 9.2 


12 



8 . 2 5 - 6 . 2 (s+1)/2 



如果 

如果 


为偶数 

为奇数 


( 11 ) 


当使用这些增量，…) 
坏情况的运行时间是 0( iV 4/3 )。 


(1，5,19,41,109,209,…）时 ， Sedgewick 证明，最 


对于形如 



的增量，以及对于 


的 Incerpi-Sedgewick 序列，观察到极小 
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的移动次数大约是6750。但重要的是要认识到，移动次数并非惟一的考虑，即使是 

它支配渐近运行时间。因为程序 D 花费 9 B + 10 (NT - S ) +…个时间单位，我们看 

1 0 

到一次扫描大约相当于减少 fiV 次 移动； 当 N = 1000时，如果我们能减少一次扫 
描，我们宁愿增加1111次移动。（无论如何，如果接近 N ， 第一次扫描是非常 

快的，因为 A/T _ (N ~ /^-丄）+ …+ (N ~ h 0 ) o ) 


表6 当 N = 1000 时，算法 D 的近似特性 












增童 


^ ave 

D 

^ ave 

T 












1 

6 

249750 

1 











17 

1 

65 

41667 

2 










60 

6 

1 

158 

26361 

3 









140 

20 

4 

1 

262 

21913 

4 








256 

64 

16 

4 

1 

362 

20459 

5 







576 

192 

48 

16 

4 

1 

419 

20088 

6 






729 

243 

81 

27 

9 

3 

1 

378 

18533 

7 



512 

256 

128 

64 

32 

16 

8 

4 

2 

1 

493 

16435 

10 




500 

250 

125 

62 

31 

15 

7 

3 

1 

516 

7655 

9 




501 

251 

125 

63 

31 

15 

7 

3 

1 

558 

7370 

9 




511 

255 

127 

63 

31 

15 

7 

3 

1 

559 

7200 

9 





255 

127 

63 

31 

15 

7 

3 

1 

436 

7445 

8 






127 

63 

31 

15 

7 

3 

1 

299 

8170 








63 

31 

15 

7 

3 

1 

190 

9860 

6 








31 

15 

7 

3 

1 

114 

13615 




513 

257 

129 

65 

33 

17 

9 

5 

3 

1 

561 

6745 

10 




257 

129 

65 

33 

17 

9 

5 

3 

1 

440 

6995 

9 





129 

65 

33 

17 

9 

5 

3 

1 

304 

7700 

8 






65 

33 

17 

9 

5 

3 

1 

197 

9300 








33 

17 

9 

5 

3 

1 

122 

12695 

6 



683 

341 

171 

85 

43 

21 

11 

5 

3 

1 

511 

7365 

10 




341 

171 

85 

43 

21 

11 

5 

3 

1 

490 

7490 

9 







255 

63 

15 

7 

3 

1 

373 

8620 

6 







257 

65 

17 

5 

3 

1 

375 

8990 

6 







341 

85 

21 

5 

3 

1 

410 

9345 

6 I 

377 233 

144 

89 

55 

34 

21 

13 

8 

5 

3 

2 

1 

518 

7400 

13 

233 

144 

89 

55 

34 

21 

13 

8 

5 

3 

2 

1 

432 

7610 

12 






377 

144 

55 

21 

8 

3 

1 

456 

8795 

7 






365 

122 

41 

14 

5 

2 

1 

440 

8085 

7 







364 

121 

40 

13 

4 

1 

437 

8900 

6 
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(续) 


增童 A ave B ave T 





121 

40 

13 

4 

1 

268 

9790 

5 


336 

112 

48 

21 

7 

3 

1 

432 

7840 

■ 

306 170 

90 

45 

18 

10 

5 

2 

1 

465 

6755 

9 



169 

91 

49 

13 

7 

1 

349 

8698 

6 

275 

125 

121 

55 

25 

11 

5 

1 

446 

6788 

8 


190 

84 

37 

16 

7 

3 

丄 

359 

7201 

7 

929 

505 

209 

109 

41 

19 

5 

1 

512 

7725 

8 


505 

209 

109 

41 

19 

5 

1 

519 

7790 

7 



209 

109 

41 

19 

5 

1 

382 

8165 

6 


M . A . Weiss [ Comp . J . 34 (1991 )，88 〜 91 ] 所进行的广泛的实验测试明显地提 
示，对于增量 Y -1， …15,7,3，1由算法 D 所实现的平均移动次数近似地同 N 5/4 成 
正比。更精确地说, Weiss 发现，当使用这些增量时，对于 100< JV <12000000， B ave 〜 

1.55 N 5/4 -4.48 N + 0/ N 3/4 ; 实验的标准差近似为 .065 N 5/4 。 另一方面 ， Marcin 
Ciura 的子序列测试表明 , Sedgewick 的序列 （11) 显然有 B ave = 0( N ( logN ) 2 ) 或者更 

好。当 N <10 6 时，序列 （11) 的标准差惊人地小，但当 7 V 超过10 7 时，它不可思议地 
爆发性地增长。 

利用形如2+-1，2+ + 1和 （11) 的增量，表7示出了 3次随机实验中所得到的， 
每次扫描的移动次数的统计分析。在每种情况下，使用相同的数的文件。在3种情 
况下，总共的移动次数 S 3 5 达到346152,329532,248788，所以在这个例子中序列 

(11) 显然是优越的。 


表 7 每遍扫描的移动 ：对于 N = 20000 时的实验 





B s 

h s 

B s 

4095 

19458 

4097 

19459 

3905 

20714 

2047 

15201 

2049 

14852 

2161 

13428 

1023 

16363 

1025 

15966 

929 

18206 

511 

18867 

513 

18434 

505 

16444 

255 

23232 

257 

22746 

209 

21405 

127 

28034 

129 

27595 

109 

19605 

63 

33606 

65 

34528 

41 

26604 

31 

40350 

33 

45497 

19 

23441 

15 

66037 

17 

48717 

5 

38941 

7 

43915 

9 

38560 

1 

50000 

3 

24191 

5 

20271 



1 

16898 

3 

9448 





1 

13459 
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尽管逐渐地人们更好地理解了算法 D ， 但是超过30年的研究并没有能找出任 
何充分的根据，以得出关于什么增量序列能使它最有效的强有力的断言。如果 N 
小于1000,如下的一个简单规则 

令 Ao = 1, / i 5+1 = 3/ i s + 1，且当 /iz + i 〉 N 时，以 \ —^ 停止 （12) 

似乎与任何其它增量一样好。对于更大的 N 值，可以推荐 Sedgewick 的序列（11)。 
然而， N . Tokuda 使用 L 2.25/1」 代替式 （12) 中的 3/ i 5 ，得到更好的结果，甚至可能有 

NlogN 的阶。请见 Jnformation Processing 92 1(1992) ，449 〜 457。 

表插入 现在我们放下 Shell 方法，来考虑有关直接插入的其它类型的改进。 
对一个给定算法进行改进的最重要的一般方式之一是，仔细地检查它的数据结构， 
因为，为避免不必要的操作而进行的数据结构的再组织，常常取得实质性的改进。 
2.4 节中有这个一般想法的进一步讨论，并研究了一个颇为复杂的算法；我们考虑 
如何把它应用于像直接插入这样非常简单的算法。对于算法 S ， 什么是最适当的数 

据结构呢？ 

直接插入包括两个基本的 操作： 

0扫描一个有序文件，找出小于或等于一个给定键码的最大键码； 
ii ) 插入一个新的记录到一个有序文件的指定部分。 

这个文件显然是一个线性表，而算法 s 通过使用顺序分配（见 2.2.2 小节）来处 
理这个表；因此，为完成每一个插入操作，必须移动大约一半记录。另一方面，我们 
知道，链接分配（见 2.2. 3小节）对插入比较理想，因为仅仅需要改变较少的链接；而 
且另一个操作，即顺序扫描，对链接分配也大致像顺序分配一样容易进行。由于总 
是从同一方向来扫描这张表，故只需要单路链接。因此得出结论，对于直接插入， 
“适用的”数据结构是单路链接的线性表。不难修正算法 S ， 以便按递增的次序来扫 

描这个表： 

算法 L (表 插入） 假定记录 R '， …， R n 包含键码，…，，且链接字段 
，…，能容纳数字0到 N ; 在这个文件的开始处，一个人为的记录尺0中有另一个 
链接字段 Lo 。 本算法设置链接字段，使得这些记录以递增的顺序链接在一起。于 
是，如果 Ml ) … MN ) 是使得 Kp ⑴的稳定的排列，则这个算法将得出 

L 0 = p ( l ) ; + 对于 L P ( N ) = 0 (13) 

LI . [对 j 进行循环]置 N ，1^—0(“ 起表“头”的作用，0起空链的 作用； 

因此这个表实质上是循环 的）。 对于 J N - l，iV _2，一，1，执行步骤 L 2 
到 L 5; 然后终止本算法。 

L 2 .[对 p ， q ， K 赋值]置 P — Lq ， 0 ， K — & ( 在下列步骤中，通过把 K 按递 

增次序同以前的键码进行比较，来把民插入到链接表中的适当位置。变量 
p 和 g 起指向这个表的当前位置的指针作用，而且 f = L g ， 所以 g 比 f 落后 

~^步 ）o 
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L 3 .[比较 K - K p ] 如果 K <： K P 则转向步骤 L 5( 已经在这个表的 jR g 和尺户之 

间，为记录尺找到了所要求的位置）。 

L 4 .[碰撞 p ， g ] 量 q — P , P — Lq 。 如果/>〉0,则转回到步骤 L 3 (如果 p = 0，则 

K 是当前发现的最大的 键码； 因此记录只列入这个表的末端，在心和尺0 
之间）。 

L 5 •[插入表中] 置 L q — j ， L 广 p 。 I 

这个算法是重要的，不仅仅因为它是简单的排序方法，而且还因为它经常作为 
其它表处理算法的一部分出现。表8示出了当对16个数进行排序时开头几步的情 

况。习题32给出最后的链接设置。 


表8表插入的例子 



程序 L (表插入）我们假定存储于 IWUT + j (0:3) 中，存储于 INPUT + 


J (4:5) 中。 

rll= j y rI 2 

—;rI 3 —g ;r 

A( 0 ： 3 ) = K o 

01 

KEY 

EQU 

0:3 


02 

LINK 

EQU 

4:5 


03 

START 

ENT1 

N 

l 

04 


ST1 

工 NPUT(LINK) 

l 

05 


STZ 

工 NPUT+ N(LINK) 

i 

06 


JMP 

6F 

1 

07 

2H 

LD2 

INPUT(LINK) 

N - 1 

08 


ENT3 

0 

N - 1 

09 


LDA 

工 NPUT，1 

N - 1 

10 

3H 

CMPA 

INPUT ， 2(KEY) 

B + N — 1 

11 


JLE 

5F 

B + N - 1 

12 

4H 

ENT3 

0,2 

B 

13 


LD2 

INPUT,3(LINK) 

B 

14 


J2P 

3B 

B 


A 

A 


L1. 对 y 进行循环。 


N 


L 


L 


N 


N 

0 


转去使 ） 减值 

L2 ■对 p,q，K 赋值。 p—L 


Q 


<- 


K — K 


J 


L3 . 比较 K:K P 
如果则转 L 5 


q—P 


L4. 碰撞 p，q 


如果 p >0, 则转 L 3 
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15 5H 

ST1 

INPUT， 3 (LINK) 

N - 1 

L5 . 插人表中。 L q < j 

16 

ST2 

工 NPUT ， 1(IJNK) 

N - 1 

L 广 P 

17 6H 

DEC1 

1 

N 


18 

J1P 

2B 

N 

N>j>\ | 


这个程序的运行时间为 7 B + 14 N -3 A -6 个单位，其中 N 是文件的长度 ， A 
+ 1是自右到左极大值的个数， B 是原来排列中反序的个数（参考程序 S 的分析。 
注意程序 L 不重新排列内存中的这些 记录； 这可以如习题 5.2-12 中那样，以大约 
20 N 的额外时间单位完成之）。程序 S 需要 （9 B + 10 N -3 A -9) m 时间单位，而且 

由于 B 约为 + N 2 , 我们可以看出，用作链接字段的额外存储空间已经使我们节省了 

大约22%的执行时间。通过周密的程序设计，还可以再节省 22% (见习题 33) ，但运 
行时间仍保持同 N 2 成比例。 

下面对至今所做的工作做一总结 我们开始于一个简单而且自然的排序算法 
S ， 它进行了大约 + JV 2 次比较和 f iV 2 次移动。一方面，通过考虑二叉插入来进行改 

进,后者大约进行 NlgN 次比较和 f N 2 次移动。通过“两路插入”稍稍改变数据结 

构，使移动次数减少到大约 jiV 2 。 Shell 的减少增量排序技术对于在实用范围中的 

N ， 使比较和移动次数减少到大约 ] V 7/6 ; 当 N — ⑺时，这个数可以被减少到阶为 N 
( iogN ) 2 。 对算法 S 进行改进的另一条途径是使用一个链接的数据结构，结果就得 

到表插人方法，它大约进行 + N 2 次比较，0次移动和 2 N 次改变链接。 

能不能把这些方法的最好特性结合起来，使之既像二叉插人那样把比较次数减 
少到 NlogN 的阶数，又像表插入那样减少移动的次数呢？答案是肯定的，方法是采 
取一个树结构的排列。这个可能性首先是由 D . J . Wheeler 于1957年阐 明的； 他建 
议使用两路插人，直到有必要移动某些数据时 为止； 然后，不去移动这些数据，而是 
插入指向另一内存区域的指针，而且同样的技术又递归地应用到所有有待插人到这 
个新内存区域去的项目上。 Wheeler 最初的方法[见 A . S . Douglas , Comp . J . 2 

(1959)，5] 是顺序内存和链接内存的一个复杂组合，且带有可变大小的 节点； 对于我 
们的16个例数，将形成图13的树。利用二叉树，一个类似的但较为简单的树插入 
方案由 C . M . Berners - Lee ，大约于1958年独立地设计出来 [ 见 Comp . J , 3 (1960) ， 

174,184]。由于此方法以及它的改进，对于查找和排序都十分重要，所以我们将在 
第六章详细地讨论它们。 

另外，还有一条改进直接插入法的途径，即考虑一次插人若干个项目。例如，假 
设我们有一个包含1000个项目的文件，如果它们中的998个项目已经排好序，那么 
算法 S 还要再对整个文件进行两次扫描（首先插入只 999 ，然后插入只 1()()() )。如果我 
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t 

503 t 512 


t 

509 



703 


图 13 Wheeler 树插入方案 7 K 例 

们首先比较 只999 和 尺 1000 ，看哪个更大，然后通过对这个文件的一次考察来插入它们 
俩，则很明显可以节省时间。这种类型的组合操作，大约包含吾 N 次比较和移动（参 

见习题 3.4. 2-5)，而不是每次大约包含个比较和移动的两次扫描。 

换句话说，一般说来，对于要求长时间的查找操作，进行“分批处理”是一个好的 
想法，使得多个操作可以一起完成。如果把这个想法引向其自然的结论，就会重新 
发现通过合并进行排序的方法。它如此重要，因此将在 5.2.4 小节中进行讨论。 

地址计算排序 至此，有关简单的直接插人方法，已详细地讨论了所有可能的 
改进 途径; 但是让我们再考虑一下下面的情况！假设你要按照作者名字的次序把几 
十本书放到书架上，而这些书是以随机的顺序给你的。当你放书时，你自然尝试来 
估计每本书的最后位置，由此来减少比较的次数和你要做的移动。而且如果你通过 
比需要的绝对空间稍稍多一点的书架空间开始，整个进程将会稍微更有效些。 

这个方法首先由 l saac 和 Singleton 提出来用于计算机的排序（见 MCM 3 
(1956) ，169〜174 ) ，而由 Tarter 和 Kronmai 进一^步加以发展（见 Proc . ACM Nat I 

Con /. 21 (1966),331 〜 337)。 

地址计算排序通常要求同 N 成比例的附加存储空间，或者用来保留足够的空 
间使得不需要做过多的移动，或者用来保留辅助的表格，用这些表格帮助处理键码 
分布的不规则性(见“分布计数”排序，算法 5.2 D ， 它是地址计算的一种形式）。如果 
如同在表插入方法中那样，把这个附加的存储空间提供给链接字段，那么，也许可以 
最好地使用它们。由此，还可以避免为输入和输出开设独立的区域；一切都能够在 

同一个存储区域中完成。 

根据这些考虑，我们主要推广表插入，但这里保持的是若 千张表 ，而不仅仅是一 
张。每张表被用于键码的某些范围。我们做重要的假定，即假定这些键码都是相当 
均匀地分布的，而不是不规则地“聚集起来的”：把键码的所有可能值的集合划分成 
M 部分，并假定一个给定的键码落人一个给定部分的概率是 1/ M 。 然后，提供 M 

个表头的附加存储，而且每一个表就像在简单的表插入中那样来处理。 

这里不必详细地给出算法；这个方法只是简单地以把所有表头置为 A 开始。当 

• 93 • 



第 5 章排序 


每个新项目进入时，首先决定它的键码落人 M 个部分中的哪一个，然后就像在算法 
L 中那样把它插入到对应的表中。 

为了说明这个方法，假设前面示例中的16个键码被分成 M = 4 个范围0〜249, 
250〜499,500〜749,750〜999。随着键码，…， K 16 逐个地被插入，我们得到 

下列的 配置： 



4 个项目之后 

8 个项目之后 

12 个项目之后 

最后的状态 

表 1: 

061,087 

061,087,170 

061,087,154,170 

061,087,154,170 

表 2: 


275 

275,426 

275,426 

表 3: 

503,512 

503,512 

503,509,512,653 

503, 509, 512, 612, 653, 
677,703 

表 4: 


897,908 

897,908 

765,897,908 


(以下的程序 M 实际上是以相反的次序 ， gp iC 16 ，…， K 2 ， i ^， 来插入键码的，但 

最后的结果相同）。由于使用了链接存储，所以可变长度的表不引起存储分配的问 
题。如果愿意，所有的表都可在最后组成一个表（参见习题35)。 

程序 M (多表插入）在本程序中，做像在程序 L 中一样的假定，但是这些键码 
必须是非负的，于是 

0 < < (BYTESIZE) 3 

通过把每个键码乘以一个适当的常数，这个程序把上述范围分为 M 个相等的部分。 


M HEAD[p] 一八 

M 

M 

1 j—N 

N 

N rA—L M • K ; /BYTESIZE 3 J 

N 

N r/ 4 ^-rA 

N LOC(HEAD[rA]) 

N K^K J 

N 转去对赋值 


表头在单元 HEAD + 1 


01 

KEY 

EQU 

02 

LINK 

EQU 

03 

START 

ENT2 

04 


STZ 

05 


DEC2 

06 


J2P 

07 


ENT1 

08 

2H 

LDA 

09 


MUL 

10 


STA 

11 


ENT4 

12 


工 NC3 

13 


LDA 

14 


JMP 


HEAD + M 中。 

1:3 

4:5 

M 

HEAD, 2 
1 

* - 2 
N 

INPUT, 1( KEY) 

=M(l ： 3)= 

* + 1 ( 1 : 2 ) 

0 

HEAD+ 1 - INPUT,4 
INPUT f l 
4F 
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15 

3H 

CMPA 

INPUT,2(KEY) 

B+N-A 


16 


JLE 

5F 

B + N-A 

若则去插人 

17 


ENT3 

0,2 

B 

q—P 

18 

4H 

LD2 

INPUT, 3( LINK) 

B + N 

p^him(q) 

19 


J2P 

3B 

B + N 

如果不是表的末端则转移 

20 

5H 

ST1 

INPUT,3(LINK) 

N 

LINK( q ) ^-L0C( Rj ) 

21 


ST2 

INPUT, 1( LINK) 

N 

Lim(L0C( Rj))^p 

22 

6H 

DEC1 

1 

N 


23 


J1P 

2B 

N 



这个程序是对一般的 M 写的，但是，倒不如把 M 固定在某个合适的 值上； 例 
如，可以选择 M = BYTESIZE, 使得这些表头都能通过一条 MOVE 指令来清零，并用一 
条 LD3 INPUT,1(1:1) 指令即可代替 08 行〜 11 行的乘法序列。在程序 L 和程序 M 

之间最值得注意的差别在于这样一个事实，即当不需进行比较时，程序 M 必须考虑 
一个空表的情况。 

用 M 个表节省了多少时间呢？程序 M 的总运行时间为 7 E +31 N -3 A +4 M 
+ 2个单位，其中 M 为表的个数， JV 为被排序记录的个数，而 A 和 B 分别计算自右 
到左的极大值个数和每个表键码当中的反序个数（同本节的其它时间分析相反，在 
这里把一个非空排列的最右元素包括在计数 A 中）。我们已经对于 M = 1 研究了 


A 和 B ， 当时它们的平均值分别是和 


2 


N 

2 


0 


按关于键码分布的假定， 


个 


给定的表在排序结束时恰包含 n 个项目的概率是“二等式”概率 


N 


71 


N- 


71 




M 


1 - 


M ) 


因此在一般情况下 A 和£的平均值是 


A 


ave 




N \ / 1 \ 


N- 


n 




1 - 




M 


B 


ave 


mE 


n 


/N 、 /i\ 

M 


N- 


n 


1 - 


M 



(14) 

n 

H n 

(15) 

l)h 

(16) 


利用等式 1.2.6-(20) 的一个特殊情况的恒等式 

一 /NWN - 2 

— \ 2l\n - 2 


N 


n 


n 


\2 


我们可以很容易地计算 （16) 中 的和: 


B 


N 


ave 


2 M \2 


(17) 


而且习题37导出了 B 的标准差。但 （15) 中的和是更困难的，由定理 1.2.7 A ， 我们 
有 


# 
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E 

n 




— N 

(/ijv ~ In Af ) + ^ 


因此 


0 < f = 



M — 1 
N + 1 


A ave 二 M ( H n - In M ) + 0 < ^ < — 点) (18) 

(当 M 〜 JV 时这个公式实际上是没有 用的； 习题40给出当 M = N / a 时，对于 A 的 
渐近特性更详细的分析）。 

通过组合 （17) 和（18)，我们可以导出当 iV — w 时对于固定的 M ， 程序 M 的总 

的运行时 间为： 

min 31 N + M + 2 


ave 1.75 N 1 2 * * * 6 /M + 31 N — 3 MH N + 3 M In M 十 4 M — 3 汐一 1.75 N/M + 2 
max 3.50 N 2 十 24.5 N + 4 M + 2 


(19) 

注意，当 M 不太大时，我们把平均时间加快 M 倍 ； M = 10 大约要比 M =1 快10倍! 
然而，极长时间比平均时间要大 得多； 这重申了关于键码分布相当均等的假定，因为 
当所有记录都堆积到同一个表时，出现了最坏的情况。 

如果置 M = iV ， 则平均运行时间近似于 34.36 N ; 当 M = ~ N 时，它稍大些，近 


似于 34.52 N ; 而当 M = ^ N 时，它近似于 48.04 N 。 习题35中的补充程序，把所 

有的 M 个表链接成一个表，其额外的费用分别把这些时间升高到 44.99 N ,41.95 N 
和 52.74 N (注意这些 MIX 时间单位中，有 10 N 个是花费在乘法指令中的 ）。仅仅假 
定这些键码相当好地散布在它们的范围中，我们就实现了一个阶为 N 的排序方法。 

在 5.2.5 小节讨论了对于多个表插入的一些改进。 


习 



1. [10] 算法 S 是一个稳定的排序算法吗？ 

2. [11] 如果把步骤 S 3 中的关系改为 “ K > KV ’， 则算法 S 是否仍将正确地排序？ 

► 3. [30] 程序 S 是不是用 MIX 所能编写的最短的排序程序，换句话说，是否有实现同样效果 
的一个更短的程序？ 

► 4. [ M 20] 作为 iV 的一个函数，求出程序 S 的极小和极大运行时间。 

► 5. [ M 27] 给定|1，2,…， iVl 的一个随机排列作为输入，求程序 S 总运行时间的生成函数 


U )= S 其中是程序 S 恰好花々个单位时间的概率。此外对给定的 iV ， 计算运行时间 

务 >0 


的标准差。 


6. [23] 表2说明的两路插入方法，似乎意味着除了有一个能容纳 N 个记录的输入区域之 
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外，还有能容纳达 2 N + 1 个记录的一个输出区域。试证说明两路插人可以仅仅使用足以存放 N 
+ 1个记录的空间来完成，同时包括输人和输出在内。 

7 . [ M 20 ] 如果…〜是|1,2,…，/2丨的一个随机排列，问什么是 1(2! - 1| + | a 2 — 2| +… 

+ 的平均值（此为77乘上在一个排序过程中某记录所走过的平均纯距离）？ 

8. [10] 算法 D 是一个稳定的排序算法吗？ 

9. [20] 对应于表3和表4,量 A 和 B 是多少？程序 D 的总运行时间是多少？试讨论在这种 
情况下 Shell 方法相对于直接插入的优点。 

► 10. [22] 如果当步骤 D 3 开始时，则算法 D 指定了许多什么贡献也没有的动作。 

说明怎样修改程序 D ， 使得可以避免这些多余的计算，并讨论这样一个修改的优点。 

11. [ M 10] 在如图】1所示的一个格中，对应于排列1 2 5 3 7 4 8 6 9 11 10 12的通路是什么? 

12. [ M 20] 证明在一个格通路和楼梯通路之间的区域（见图11)，等于对应2有序 （2- or - 
dered ) 排列中的反序的个数。 

► 13. [ Mi 6] 说明怎样把权放置到一个格 的水平 线段上，而不是垂直线段上，使得在格的一条 
通路上水平的权之和，是对应的2有序排列中反序的数目。 

14. [ M 28] ( a ) 说明在由等式 （2) 所定义的和中， A 2 „ + 1 =2 A 2 ，, D ( b ) 如果我们置 r = s,p 

-2,习题 1.2.6-26 的一般恒等式简化为 



2k + s 

k 




通过考虑和式 I ] a 2 # w ， 证明 

n 

A 2 „ 二 n • 4 


► 15. [ HM 33 J 设和々， 1 (幻是对从(0,0)到（^)的，长度为2” 的所有格 

通路求和的，其中的权如图11所示定义，它受到通路上诸顶点的某些限制 ：对于 

没有限制，但对于 ^ U )， 这条通路必须回避所有使 i > j 的顶点幻和的 

定义与此类似，但要排除 0< f </2 的所有顶点 （ f ， Z _)。 于是 

g 0 (z) = 1 , g\(z) ^ 2 ：, g 2 (z) = Z 2 + Z 2 ； gi(z) = z,g 2 (z) = 


△ 0 ( 之 ） = 1 ， hi(z) = 2 + 1 ， h 2 (z) = + z 2 + 3z + l 


hi(z) 




z + l, h 2 (z) 



试求出定义这些函数的递归关系，并使用递归关系来证明 



r“ix(i) = 7 ” 3 + 4 3 广 4/2 ( 2 :: 

(因此容易找出11,2,…々〃丨的一个随机2有序排列中，反序个数方差的精确 公式； 它渐近于 



16. [ M 24] 求 II ,2,…，的一个 h 有序排列中，反序的极大个数的公式。当增量满足整除 
性条件 （5) 时，在算法 D 中最多能有多少次移动？ 

17. [ M 2!] 说明，若对之 有 N = 2 f 和\ = 则存在丨1，2,…， AH 的惟一排列，使由算 

法 D 执行的移动操作个数取极大值。试求描述这个排列的一个简单方式。 

18. [ HM 24] 对于很大的 N , 和数 （6) 可被估计为 
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1 N 2 7^ ( N m h % N 3 l 2 h \ l2 \ 

--+ - - + …+ - I 

4 8 V h t -2 I 

当~和（固定且 心=1 时，，…，&的什么实数值使这个表达式取极小值？ 

► 19. [ M 25] 在程序 D 的计时分析中，当增量满足整除性条件 （5) 时，量 A 的平均值是多少？ 

20. [ M 20] 证明定理 K 可从引理 L 推得。 

21. [ M 25] 设/ I 和 A 是互素的正整数，并且说一个整数是可生成的，如果对于某些非整数 x 
和: V ，它等于妯+必的话。试证明，《是可生成的当且仅当 / im ^ z 不是可生成的（由于0是最 
小可生成的整数，因此最大的不可生成的整数必定是 hk - h - k 。 由此得出，在既是/ I 有序又是々有 
序的任何文件中，每当 j - i>(h - 1 )U - 1) 时，有 K ,< K,)o 

22. [ M 30] 证明所有 >2 S (2 T -1) 的整数均可表示成 

a 0 (2 s - 1) + a { (2 s+l - 1) + a 2 (2 s+2 - 1) + … 

的形式，其中，诸 a , 是非负整数。但2穴2 5 -1)-1则不能这样表示。而且，恰有 

个正整数是不能以这样的形式来表示的。 

当量 Y - 1被 Y + 1代替时，试求在这个表示之下类似的公式。 

► 23. [ M 22] 证明如果圮 + 2 和 \ +1 互素，则当箅法 D 使用增量心时，移动次数是 0( Nh s + 2 h s ”l 

h s ) 0 提示，见习题21。 

24. [ M 42] 证明，在指数3/2已不能再降低的前提下，定理 P 是最好的。 

► 25. [ M 22] 丨1，2,…，;21有多少排列既是3有序的又是2有序的？在这样一个排列中反序的 
极大个数是多少？在所有这样的排列中反序的总数是什么？ 

26 . [ M 35 ] 如果 iV 个元素的一个文件是3有序、5有序和7有序的，则它能有多于 N 个反序 
吗？当 N 很大时，试估计极大的反序个数。 

27. [ M 41 ] (Bjorn Poonen ) ( a ) 试证明，如果算法 D 中的增量乂中有 77 Z 个小于 iV /2 ,则存在 

一个常数使得在最坏情况下的运行时间是 n ( N 1 + ^^)。（ b ) 对于所有增量序列，结果最坏的 
运行时间是 H ( N(log N/iog log N ) 2 ) 0 

28. [15] 从程序 D 的观点看，以及考虑平均的总运行时间，表 6 中所示的增量序列哪个是最 
好的？ 

29. [40] 对于/ V 二1000以及各种^值，试求 心 - i ，…，/^，心的经验值，对于它们， B ave 是你 
所能达到的最小值。 

30. [ M 23] ( V . Pratt ) 如果 Shell 排序中的增量集合是 U p 3 9 |2〃3 9 < N | ，试证明扫描次数近 
似于 j ( k ) g 2 ] V )( bg 3 JV 〉， 而每次扫描的移动次数至多是 JV /2。 事实上，如果对于任何一次扫描 

则将总有 K ^ 3 A ，]<,_&<&<心_,,<斤 + 所以可以简单地交换和心， 

并使 j •增加 2 A ， 这节省了算法 D 的两次比较。提示•.见习题25。 

► 31. [25] 为 Pran 的排序算法写一个 MIX 程序（习题30)。试借用类似于程序 D 中的那些量 
焱，3,5，丁，/\^,来表达它的运行时间。 

32. [10] 如果表8中的表插入排序一直进行到完成为止，则1^,1^,-，_1 16 的最后内容将是 
什么？ 

► 33. [25] 试求改进程序 L 的一种方法，使得主宰它的运行时间的是而不是其中 B 是 

反序的数目。试讨论对于程序 S 的相应的改进。 

34. [ M 10] 验证公式（14)。 

35. [21] 遵循程序 M ， 写一个 MIX 程序，使得所有的表组合成一个表。你的程序应当与程序 
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L 中完全一样地来对 LINK 字段置值。 

36. [18 ] 假设 MIX 的字节大小是 100, 表 8 中 16 个键码的例子实际上是503000,087000, 
512000,…，703000。当 M = 4 时试针对这组数据，确定出程序 L 和 M 的运行时间。 

37. [ M 25] 设 g „( Z ) 是72个对象的一个随机排列中反序的生成函数（参考等式 

5.1.1- (11))。设是程序 M 中量 B 的对应生成函数。证明 

▽ 〆 、 M n w n _ 

/Vt = 

N^O ^ 

并使用这个公式导出 B 的方差。 

38. [ HM 23 ] ( R . M . Karp ) 设 FO ) 是一个概率分布的分布函数，且 F (0) = 0及 F ( 1 ) = 1。 

若键码 H ，…， K n 是从这个分布中随机地独立选择的，而且 M = 是常数，⑺， 

试证明当 F 充分光滑时，程序 M 的运行时间是 O ( iV ) (当时，一个键码 K 被插入到 
表_; 中； 这以 F (( j -1)/ M ) 的概率出现。正文中仅讨论了 F ( x ) = x ,0< x < l 的情 

况）。 

39. [ HM 16] 如果一个程序的运行近似地需要 A / M + B 个时间单位，并使用 C + M 个内存 

单元，则怎样选择 M 可给出极小的空间 X 时间？ 

► 40. [ HM 2.4 ] 当 N — oo , 对于固定的 a , M = iV / a 时，试求在多个表插入中岀现的自右至左极 

大值平均个数的渐近值，即等式（15)。借助于 指数积分函数 E ^ z ) = e ^ dtlt 来表达你的答 

J Z 

案，并且展开到 0( N _1 ) 的绝对误差的范围内。 

41. [ HM 26] ( a ) 证明 （10) 的头个元素之和是0( 〆 。。 （ b ) 现在证明定理 I 。 

42. [ HM 43 ] 假定/ I 丄当有 i = 3 个增量和1时，试分析 Shell 排序的平均特性。头一 
遍扫描，即 A 排序，显然总共做了 f N 2 //i + O ( A 0 次移动。 



n 


/w 


gn (^) 


a ) 证明，第二次扫描，即 g 排序，做了 f (/^_1//^)]\^+0(感）次移动。 


b ) 证明，第三次扫描，即1排序，做了 0(/ i ， gOiV + OU 3 / i 2 ) 次移动，其中 


(p(h ， g) 


2 


ES 


h - 1 


d 


g 



1 - 


d 


h — l 


g 


i 


hd 

g 


► 


通过使测试 、>0” 在步骤 S 4 中成为不必要的，习题 33 使用一个标记来加速算法 S 。 


这个技巧对于算法 D 不适用。尽管如此，试证明在步骤 D 5 中有一个容易的方法来避免对、>0” 


的测试，由此加速 Shell 排序的内循环。 

44. [ M 25 ] 如果 tz - a n 和 〆 = a ; … a : 是丨1 ，…，？ 2 丨的排序，对于，如果丨 q ， 
…，~ I 的第 f 个最大的元素小于或等于 U ' i ，…，< } 的第 i 个最大的元素，则说换句话说， 
对于所有的，在头个元素已被插入之后，如果 tt 的直接插入排序按分量小于或等于/的直接 
插入排序，则 nO 。 

a ) 如果在习题 5.1.1-12 的意义下，; r 在，之上，是否有兀</? 

b ) 如果是否有 

c ) 如果 Trg〆 ， 是否有 7 T 在 〆 之上？ 


5 . 2.2 通过交换进行排序 


现在回过来讨论 5.2 节开头提到的第二类排序算法 ：“交 换”或“换位”方法，它 
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系统地交换反序的元素对偶，直到不再存在这样的对偶为止。 

直接插人算法 5.2.1 S 的过程，可以看成是一个交换 方法： 我们基本上把每个新 
记录民同它左边的相邻者进行交换，直到它插入到适当的位置为止。所以，把排序 

方法分成各种类型，诸如“插人”、“交换”、“选择”等，其界线并不总是很分明的。在 
这一小节将讨论以交换为主要特征的4种排序方法，它们 是：交 换选择 （“冒泡排 
序 ”）； 合并交换 ( Batcher ) 的平行排 序）； 分划交换 （ Hoare ) 的“快速排序 ”）； 以 及基数 
交换。 

冒泡排序 也许通过交换进行排序的最明显方法是比较 Ki 和 K 2 ，如果这些 

键码不是顺序的，就交换和尺 2; 然后对记录尺 2 和 r 3 , r 3 m R 4 等进行相同的 

工作。在这一系列操作期间，具有较大键码的记录势必向右移动，而且事实上具有 
最大键码的记录将移动到成为为止。重复这个过程，就得到在位置 R N -^ 

p N _ 2 等处的适当记录，使得所有记录最终排好序。 

图14示出了对于16个键码503 087 512…703进行这种排序的方法。垂直地 
而不是水平地表示数的文件，并以在顶部和在底部，是适宜的。这个方法称 

为“冒泡排序”，因为较大的元素“上浮”到它们适当的位置，同“下沉排序”（即直接插 
人）相反。在下沉排序中，元素下沉到一个适当的位置。冒泡排序还有其它比较乏 


i-H 

CM 

CO 


LO 

CO 

卜 

00 


理 

辑 

箱 

辑 

珉 

m 

理 

辑 

辑 












908 

897 

765 

703 

677 

653 

612 

512 

509 

503 

426 

275 

170 

154 

087 

061 
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味的名字，例如称为“交换选择”或“扩散”等。 

在每次扫过这文件之后，不难看出，上边的所有记录，包括最后被交换的那个记 
录在内，都必然处于它们的最后位置上，所以在随后的扫描中无须考察它们。图14 
中的水平线根据这个观点示出了这个排序的 过程； 例如注意，在第4趟之后，已知又 
有5个元素处于最后位置。在最后一趟扫描时已全然不实施任何交换了。通过这 
些考察，我们就容易地系统阐述这个算法了。 

算法 B ( 冒泡排序） 适当地重新排列记录只1，…， i ? N ; 在排序完成之后，它们的 
键码将是有序的，即 K -. CKn 。 

B1 •[初始化 BOUND ] 置 BOUND — N ( BOUND 是尚不知其记录是否已处于最终位 

置上的最高 下标； 这表示此刻我们尚一无所知 ） 。 

B 2 •[对 j 进行循环]置0,对 j = l ,2, …， BOUND -1 执行步骤 B 3, 然后转到 
步骤 B 4( 如果 B0UND=1, 则意味着直接转到 B 4) 0 
B 3 •[比较/交换^：^ + 1 ]如果冯>& + 1 ，则交换民― — 民 + 1 ，并置 t — j 0 

B4 .[是否还要交换？]如果 r = 0, 则此算法终止。否则置 BOUND — 并返回到 

步骤 B 2。 | 
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图15冒泡排序的框图 

程序 B ( 冒泡排序） 如同本章前面的 MIX 程序一样，我们假定有待排序的项目 

是在单元工 NPUT + 1 到 INPUT + N 中 。 rll = i ; rI 2=> 0 


01 

START 

ENT1 

N 

02 

1H 

ST1 

B0UND(1 ： 2) 

03 


ENT2 

1 

04 


ENT1 

0 

05 


JMP 

BOUND 

06 

3H 

LDA 

工 NRJT,2 

07 


CMPA 

INPUT + 1,2 

08 


JLE 

2F 

09 


LDX 

工 NPUT+ 1,2 

10 


STX 

工 NPUT,2 


1 B1. 初始化 BOUND 。 t — N 

A BOUNIK-^ 

A B2 .对 j 进行循环。 

A t—0 

A 如果 j > B 0 UND ， 则退出 
C B3 .比较 / 交换 R/-R ) + i 

C 

C 如果 + 1 ，则不交换 

B R J + l 

B ~*Rj 
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11 


STA 

INPUT + 

12 


ENT1 

0,2 

13 

2H 

INC2 

1 

14 

BOUND 

ENTX 

一 * ，2 

15 


JXN 

3B 

16 

4H 

J1P 

1B 


1,2 


B (旧的 尺 + 1 
B 

C j*~j + 1 

A + C rX—j _ BOUND (被修改的指令） 

A + C 对 l < j < BOUND 执行步骤 B 3 
A i 34 .是否还要交换？如果 f >0, 则转 B 2 | 


冒泡排序的分析 分析一下算法 B 的运行时间是很有益处的。在计时中涉及 
了 3个 量：扫 描次数 A ;交换次数以及比较次数 C 。 如果输人的键码是不同的, 
并处于随机次序，则可以假定它们形成！ 1，2,…， / z | 的一个随机排列。从 反序表 
(5.1.1 小节）的思想可推出一个容易的方法，来描述在一个冒泡排序中的每次扫描 
的效果。 


定理 I 设 ， a 2 , …， a „ 是 11,2, •** , n \的一个排列，并设 bi ， b 2 , …， b ” 是对应 

的反序表。如果冒泡排序算法 B 的一次扫描把 变成排列 a \ a / 2 … a / n ，则从 

b ' br “ b „ 中把每个非零项减1，就得到对应的反序表 

证明如果有一个较大的元素居于~之前，则居于前面的最大元素就同它进 

行交换，所以~减1。另一方面，如果没有较大的元素居于^之前，它就决不同一 

) 

个较大的元素交换，所以保持为零。 ■ 

1 

于是，通过研究在诸次扫描中的反序表序列，即可看出在进行冒泡排序期间发 
生的情况。例如，对应于图14的逐次的反序 表是： 

3183450403223210 

扫描1 

2072340302112100 

扫描2 (1) 

1061230201001000 

扫描3 

0050120100000000 
等等。因此如果 bjfb ” 是输入排列的反序表，我们必然有 

A = 1 + max (6 i ， b 2 , …， b „) (2) 

B = ^1 + ^2 + *** + (3) 

C = Cj + C 2 + **■ + C A (4) 

其中 C , 是在第 j 次扫描开始时 B 0 uro -1 的值。借助于反序表来表示，有 

Cj — max 1 bi 十 f I 匕-> j — 11 - j (5) 

(见习题 5)。 在例 （1) 中，因此有 A = 9, 41 ，C = 15+ 14+13+12 + 7 + 5 + 4 + 3 

+ 2 = 75。对于图14,总的 MIX 排序时间是960 w 。 
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S (在一个随机排列中的反序的总数）的分布我们已经非常清楚的，所以只剩下 
A 和 C 有待分析。 

的概率是 l/n \ 乘上没有>々的分量的反序表数目，当 \< k<n 时即是 
k n ~ k k \ 0 因此恰好要求 々次 扫描的概率是 

A , = -^( k n - k k \ - (k - l) n ~ k + l (k - 1)!) (6) 

由此可计算均值 2]々 Au 作部分求和，它就是 


A 

ave 


z 

” +1 - 2 

A = 0 



— 72 + 1— P(t?) 


(7) 


其中 P ( 72 )是在等式 1.2.11.3-(24) 中求出的其渐近值为7 Trn /2 - y + 0(1//^ ) 的 
函数。 E . H . Fnend 在 /ACM 3 (1956),150 中未加证明地指出了公式 （7) ;它的证明 

由 Howard B . Demuth 给出[博士论文 （Stanford University , 1956年 10月） ， 64〜 68] 。 
关于 A 的标准差，见习题7。 

比较的 总数 C 要更难处理些，我们将仅仅考虑 C ave 。 对于固定的 n ， 令 f } ( k ) 
是对于1</<72，使得乂 -1 或 b t + i - j ^ k 的反序表幻 …匕 的 数目； 于是 

fj ( k ) = (j + k)\(j - 1)”— 广々， O ^ k^n - j (8) 

(见习题 8 )。（ 5 )中 q 的平均值是（: E 々（力 U )_ 力 U -1)))/«!; 进行部分求和，然 
后对求和，即导岀公式 


r 

、^ave 




n ! 


S fM 、 = 

1 ^；^ n 
n —j 




2 



n 



s 


O^r < 7i 



(9) 


这里渐近值不容易确定。因而将在本节末再回过头来研究它。 

为了总结对于冒泡排序的分析，以上和以下所导出的公式可以写成如下的结 
果： 


A = (min 1 ,ave N - V tcN /2 + 0(1) ,max N ) (10) 

B = (min 0 ,ave ^( N 2 - N ) ,max y ( N 2 - N )) (11) 

C = (min N - 1 ,ave y ( JV 2 - N in iV - (y + In 2 - 1) N ) 4 - 0(\/ N ), 

max y ( N 2 - N )) (12) 

在每种情况下，当输人已处于有序时即出现极 小值; 所以 MIX 运行时间是8 A +7 B 

+ 8 C 十 1 = (min 8 N + 1 ， ave 5 .75 N 2 + O(iV log N) ， max 7. 5 N 2 + 0.5 N 十 1)。 


冒泡排序的改进 为分析冒泡排序做了大量的 工作； 尽管用于这些计算的技术 

是有教益的，但结果却是令人失望的，因为它告诉我们，冒泡排序全然不是非常好 

的。同直接插入相比（算法 5.2.1 S ), 冒泡排序需要相当复杂的程序，而且花费超过 
两倍的时间！ 
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冒泡排序很容易就可找岀某些缺陷。例如，在图14中，扫描4中的头一个比较 
是多余的，扫描5中的头两个，以及扫描6和扫描7中的头三个也是多余的。还要 
注意，每次扫描时元素向左移动决不能多于 一步； 所以，如果幵始时最小的项目正好 
靠近右端，则我们就被迫进行最大次数的比较。这就提出了“鸡尾混合排序”，它以 
相反的方向交替地进行扫描（见图16)。这个方法略微减少了进行比较的平均次 
数。在这方面 K . E . Iverson [A Programming Language ( Wiley , 1962) ， 218 〜 219] 已 

经进行了有趣的考 察：对 于相反方向的两次连续扫描，如果和 & + 1 彼此不交换 

的一个下标，则民和民+ i 必须都处于它们最后的位置，而且它们都不必进行任何随 
后的比较。例如，从左到右遍历432186975得出3 2 1 4 6 8 7 5 9;在尺 4 和尺 5 

之间没有出现交换，从右到左遍历后一个排列，及 4 仍然小于（新的）只 5 ,所以可以立 
即得出结论 ，及 4 和尺 5 无须进行任何进一步的比较。 


703 

908 

0 

908 


765 

1 703 

\ 

765 

0 

677 

° 765 °° 

703 

0 


0 


o 

612 

0 677 

O 

677 

0 

0 

509 

0 612 

612 

o 


0 


0 

154 

o 509 

509 

o 

ft 

426 


426 

o 


0 


0 

653 

426 0 

653 

0 


0 O 


0 

275 

0 653 0 

275 

0 


O 


o 

897 

0 275 o 

Q 

897 cP 

170 

0 897 o 

170 



0 O o 

908 o° 170 o 512 

O 

061 512 ° 154 c 

O C 

§ § 

512 061 ^ 503 〆 

O 

087 a 503 \ 087 

o o 

<? o - 

503 oo^ 087 0 061 


908 

897 

765 

703 

677 

612 

509 

426 °cb 

% 

653 ° c 
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512 


O 


170 、 

503 ' 

154 


087 

061 


908 

897 

765 

703 

677 

612 r 

G 

O 

509 o° 

O 

653 J 


426 


/ 
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503 ^ 
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170 

154 
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061 


908 

908 

897 

897 

765 

765 

703 

703 

677 

677 

653 
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612 
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509 <xb % 

512 

512 °° 

509 

426 o% 
503 °° 

503 

426 

275 

275 

170 

170 

154 
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061 

061 


908 

897 

765 

703 

677 

653 

612 

512 

509 

503 

426 

275 

170 

154 

087 

061 


图 16 “鸡尾混合排序” 

但是这些改进中没有一个能导出比直接插入更好的 算法； 而且我们已经知道， 
对于很大的 N , 直接插人是不适当的。另一个想法是消除大多数的 交换； 因为在一 
个交换期间大多数元素都只不过左移一步，故通过移动下标的起点，换一种方式考 
察这个数组，就可以得到同样的效果！但得到的算法仍不比后面将要研究的直接选 
择算法 5.2.3 S 更好。 

简言之，冒泡排序除开它迷人的名字和导致了某些有趣的理论问题这一事实之 
外，似乎没有什么值得推荐的。 
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Batcher 平行法如果想要有一个其运行时间比 N 2 的阶数快的交换算法，就需 
要选择某个不相邻的键码对偶%)进行 比较； 否则，就需要有像原来排列的所 

有反序那样多的交换，而反序的平均数为 j ( N 2 - N )。 考察可能的交换，对比较序 

列进行编程的一个巧妙方法是1964年由 K . E . Batcher ■发现的 [ Proc . AFIPS Spring 
Joint Computer Conference 32 (1968) ， 307 〜 314]。 他的方法并不是十分显然的，由 
于只进行相当小的比较，因此需要相当错综的论证，才能证明它是正确的。我们将 
讨论两个证明 ，一 个在这一节中，另一个在 5.3.4 小节中。 

Batcher 的排序方案同 Shell 的排序有些相似，但是比较是在一种新奇的途径下 
完成的，以使交换的扩散成为不必要。例如，可以把表1与表 5.2.1-3 进行 类比; 
Batcher 方法达到了 8,4,2和1排序的效果，但是这些比较都不重叠。因为 Batcher 

的算法实质上是合并排好序的子序列对偶，故可以称做“合并交换排序”。 



图17算法 M 

算法 M (合并交换）适当地重新排列记录 i ^， …，在完成排序之后，它们 

的键码将是有 序的： 假定 iV >2。 

Ml. [初始化 f ] 置 p —2 Z — 1 ， 其中 〖 =「 lgA /1 是使得 2 { > N 的最小整数（将对 

尸2卜、二， -2 ,…，1实施步骤 M 2 到 M 5)。 

M2 .[初始化 g ， r , d ] 置 q — T — ， r —0 ，d — p 。 

M3 .[对 f 进行循环]对于使得 Q < i < N - dmihp 二 r 的所有/，执行步骤 

M 4。 然后转到步骤 M 5( 这里；指的是 Z 和 / p 二进表示的“逻辑 与”； 对 

每个二进位来说，除非 〖和 ^两数在该位上的值都为1，否则结果为零。 
例如 13 A 21 = (1101) 2 A (10101) 2 二（00101) 2 = 5。 这时 ， d 是/)的奇数 

倍，而且{是2的一个乘方，使得 i A p ^( i ^ d ) A 由此得出，步骤 M 4 
的动作可以以任意次序，甚至同时对所有有关的 i 来完成）。 

M4 .[比较/交换 U , •… J 如果 K ; + 1 > K / + d + 1 ，则交换 反 + d 川。 

M5 . [对 g 进行循环]如果则置 d — q — p ， q ■*— qjl , 并返回步骤 

M 3。 
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M6 •[对 p 进行循环](这时，排列仏尺 2 … K N 是{有序的）置 p — 「"21。如 

果 f >0, 则返回到 M 2。 | 

表1对于 N = 16 说明了本 方法。 注意，这个算法实质上先对 

尺 2 ，尺 4 ，尺 6 …独立地进行 排序； 然后，对 p = l 实施步骤 M 2 到 M 5, 为的是把两个排 

好序的序列合并在一起，从而完成对 iV 个元素的排序。 

表1 合并交换排序 ( Batcher 方法） 


p q 


d 


503 087 512 06! 908 170 897 275 653 426 154 509 612 677 765 703 


8 8 0 8 



503 087 154 061 612 170 765 275 653 426 512 509 908 677 897 703 


4 8 0 4 




503 087 154 061 612 170 765 275 653 426 512 509 908 677 897 703 


4 4 4 4 



503 087 154 061 612 170 512 275 653 426 765 509 908 677 897 703 


2 8 0 2 






154 061 503 087 512 170 612 275 653 426 765 509 897 677 908 703 


2 4 2 6 



154 061 503 087 512 170 612 275 653 426 765 509 897 677 908 703 


2 2 2 2 





154 061 503 087 512 170 612 275 653 426 765 509 897 677 908 703 


8 0 










061 154 087 503 170 512 275 612 426 653 509 765 677 897 703 908 


14 I 



061 154 087 503 170 512 275 612 426 653 509 765 677 897 703 908 


2 



061 154 087 275 170 426 503 509 512 653 612 703 677 897 765 908 


I I 









061 087 154 170 275 426 503 509 512 612 653 677 703 765 897 908 


为了证明在算法 M 中描述的比较/交换的奇妙序列，实际上能对所有可能的输 
人文件 R x R 2 - R n 排序，仅仅需要证明，当= 1时步骤 M 2 到 M 5 将合并所有的2 

有序文件尺… i ^ v 。 为此，可以使用 5.2.1 小节的格盘通路方法（参见图 11); U ， 

2,…， JV 1 的每个2有序排列惟一地对应于在一个格盘图示中从（0,0)到（「 N /21, 
LN /2」） 的一条通路。图 18( a ) 示出了 N = 16 的一个例子，对应于排列1 3 2 4 10 5 
11 6 13 7 14 8 15 9 16 12。当对于户=1 ， g = 2' _ 1 ，厂= 0 ， d 二 1 执行步骤 M 3 时，其 

效果是比较（可能还有交换）:及 4 ,等等。这个操作对应于格盘通路的一 
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个简单变换，即在必要时相对于对角线“折叠”该通路，以使它决不落在对角线的上 
面部分（见图 18( b ) 和习题10中的证明）。步骤 M 3 以后的迭代有/= r = l ， 以及4 
= — 1 - 1，2< _2 - 1，…，1 ;它们的效果是比较/交换尺2 :尺2 + J ，尺4 :尺 4 + d ，等等。而 


且也有一个简单的格盘解 释：把 这条通路相对于对角线下方 + U + 1) 个单位处的 

一条线作“折叠”，见图 18( c ) 和 （ d ); 最后得到了图 18( e ) 中的通路，它对应于一个完 
全排好序的排列。这就完成了关于 Batcher 算法是正确的一个“几何证 明”； 我们可 
以称它为通过折叠进行排序！ 




( b ) ( c ) ⑹ 

图18 Batcher 方法的一个几何解释 ， N = 16 



算法 M 的一个 MIX 程序出现于习题 12 中。可惜，为控制比较序列所需要的簿 
记工作的量是相当大的，所以这个程序比我们所看到的其它方法效率都更低。但有 
一 个重要的特性可补救它的不足：在允许进行并行计算的计算机或逻辑网络上，由 
步骤 M 3 的迭代所确定的所有比较/交换都可以 同时地 完成。 通 过这样的并行操作， 

排序在 igNKr igNi + i ) 步内完成，因此这大体同任何已知的一般方法一样快。 

例如，对于 1024个元素使用 Batcher 方法可在仅仅55个平行步骤内进行排序。与 
其最接近的竞争者是 Pratt 方法（见习题 5.2.1-30) ， 它使用 40 或 73 步，这看我们如 
何计数•，如果我们允许重叠的比较，只要不允许重叠的交换，则 Pratt 方法只需要 40 
个比较/交换循环就可对 1024 个元素进行排序。进一步的说明，见 5.3.4 小节。 

快速排序 Batcher 方法中的比较序列是预先确 定的； 每次比较相同的键码对 
偶，而不管关于这个文件从以前的比较中已经知道些什么。在冒泡排序中，尽管算 
法 B 有限地利用了以前的知识来减少它在这个文件右端的工作，但大体上仍是如 
此。现在我们转到一种十分不同的策略，它使用每个比较的结果来确定下一次要比 
较什么键码。这样一种策略对于并行计算是不合适的，但在顺序工作的计算机上却 
是十分有效的。 

下列方法的基本思想是取一个记录，比如说 i ^， 并把它移动到在排了序的文件 

中它将占据的最终位置，比如说位置^在确定这最终位置的同时，也重新排列其 
它的记录，使得带有较大键码的记录都位于 s 的右边，带有较小键码的则位于 s 的 
左边。这样一来文件就将以这样一个方式被划分，即原来的排序问题归结成两个较 
简单的问题，就是对 jR 1…兄_ 1排序，以及（独立地）对 +)/" Rn 排序。可以应用同 

一技术到这些子文件中的每一个上，直到这一作业完成时为止。 
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把文件分划成左和右子文件有若干个方法。下面由 R.Sedgewick 给出的方案， 
似乎是最好的，其原因当分析此算法时就会清楚了。保持两个指针 z 和_;，而且开始 
时 i = 2和 j 二 N 。 如果尺在分划之后最终要成为左子文件的一部分（通过比较 

和我们可知道这一点），则^增1，并且继续进行直到遇到一个属于右子文件的记 


录尺为止。类似地减1直到遇到属于左子文件的一个记录 R 为止。如果/< 
h 则交换尺同民；然后以同样方式处理下一记录，“两头点蜡”直到 i > Jo 通过交 
换&同最终地完成这个分划。例如，试看对于16个数的文件所发生的情况 
(为了指出 Z 和 7 的位置，和\已经以黑体字标出）。 


初始文件 [503 087 512 061 908 170 897 275 653 426 154 509 612 677 765 703 J 


第 1 次交换 503 087 512 061 908 170 897 275 653 426 154 509 612 677 765 703 

第 2 次交换 503 087 154 061 908 170 897 275 653 426 512 509 612 677 765 703 


第 3 次交换 503 087 154 061 426 170 897 275 653 908 512 509 612 677 765 703 

指针交叉 503 087 154 061 426 170 275 897 653 908 512 509 612 677 765 703 


分划后的文件 [275 087 154 061 426 170] 503 [897 653 908 512 509 612 677 765 703] 



图19分划交换排序（快速排序) 


表2示出了怎样通过这种方法，用11个阶段把我们的示例文件完全排好序。方 
括弧指岀了仍然需要加以排序的子 文件; 粗方括弧标出当前感兴趣的子文件。在一 
台计算机内，当前的子文件可以通过边界值 （/， r ) 表示，而其它的子文件通过附加的 
对偶（4, Q ) 的一个栈来表示。每次分划这个文件，就把较长的子文件压入栈，并对 

另一个较短的子文件着手进行工作，直到得到非常容易排序的短文件 为止； 这个策 
略确保栈决不包含多于 lg N 个项目（见习题20)。 
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表2 


快速排序 


[503 087 512 061 908 170 897 275 653 426 154 509 612 677 765 703 】 

[275 087 154 061 426 170】503 [897 653 908 512 509 612 677 765 703] 

【170 087 154 061] 275 426 503 [897 653 908 512 509 612 677 765 703] 

【061 087 154] 170 275 426 503 [897 653 908 512 509 612 677 765 703] 

061 [087 154】170 275 426 503 [897 653 908 512 509 612 677 765 703] 
061 087 154 170 275 426 503 [897 653 908 512 509 612 677 765 703] 


061 


087 154 170 275 426 503 [765 653 703 512 509 612 677] 897 908 


061 087 154 170 275 426 503【677 653 703 512 509 612] 765 897 908 

061 087 154 170 275 426 503 [509 653 612 512] 677 703 765 897 908 


061 


087 154 170 275 426 503 509 [653 612 512】677 703 765 897 908 


061 087 154 170 275 426 503 509 f512 612】653 677 703 765 897 908 

061 087 154 170 275 426 503 509 512 612 653 677 703 765 897 908 


(1 ， r) 

栈 

(1,16) 


(1,6) 

(8,16) 

(1,4) 

(8,16) 

(1,3) 

(8,16) 

(2,3) 

(8,16) 

(8,16) 

— 

(8,14) 

一 

(8,13) 

— 

(8,11) 

— 

(9,11) 

■ | 

(9,10) 

— 


刚才描述的排序过程可以称做分 划交换排序， 它是由 C . A . R . Hoare 提出来的。 
在所有已经发表过的排序方法中，他的有趣的论文 [ Comp . J _ 5 (1962)，10〜 15] 中所 
讨论的方法是研究最深的之一。 Hoare 把他的方法称为 “ tt : 速排序”；这样一个名称 
并非不当，因为，这个计算的内循环在大多数计算机上都是极快的。在一个给定的 
阶段，所有比较都针对同一个键码进行，所以这个键码可保存在一个寄存器中。在 
比较之间只须改变一个下标。而且数据移动的数量是十分合理的；例如，表2中的 

计算仅做17次交换。 

额外的簿记(用来控制和栈）并不困难，但它使得快速排序分划过程最适合 
于很大的 N ; 因此在子文件已经变短之后，下列算法使用另外的策略。 

算法 Q (快速排序）适当地重新安排记录，…，在排序完成之后，它们的 
键码将是有序的，即 K … < K no 需要有至多 Llg N 」 个项目的一个辅助栈作为临 
时存储。本算法遵循上面正文中所述的“快速排序”分划过程，但为了提高效率已稍 
做 修改： 

a ) 假定存在人为的键码 K 0 = - 00 和 K NM = + 00 使得 

K 0 < K t < K n+ i 对于 (13) 


(允许相 等）。 

b ) 具有 M 个或更少个元素的子文件，直到这个过程真正结束之前都保持未排 

序。然后使用直接插入的一次扫描产生最后的次序。其中 是一 个参数 ，它应 
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像以下正文所述的那样进行选择（由 R.Sedgewick 给出的这一思想，可节省某些开 
销，如果我们直接应用直接插入到每个小的子文件，则这个开销将是需要的，除非访 
问的局部性是重要的）。 

c) 交换具有相等键码的记录，尽管这样做并非严格必要（由 R.C.Singeton 给出 
的这一思想，保持了内循环的快速，而且当存在相等的元素时，帮助分开近乎一半的 
子 文件； 参见习题18)。 

Q1. [初始化]如果 N<M， 转到步骤 Q9 。 否则置栈为空，并置 1—1， r — N 0 
Q2 .[开始新阶段](现在希望对子文件 R r - R r 进行 排序； 从算法的本性岀 

发，有 r>Z + M, 而且对于 置 + 

并置下文讨论了对 K 另外的选择，它们可能是更好的）。 

Q 3 .[比较 Kr - K ] (此时这个文件已被重排，使得 

对于 X, < K, 对于 + K ^ K k (14) 

且 KiCjU 增 1;其后如果则重复该步骤（由于此迭代 

必定以 i < j 结束）。 

Q 4 .[比较 K ： K ; ] J /减1;其后如果 K < K ; , 则重复此步骤（由于，该 

迭代必定以结束）。 

Q5 .[测试 G ] (这时，除对于々= f 和夕卜 ，（14) 成立； 而且 K ^ K > K } , 

如果■，交换氏 ㈠民，并转到步骤 Q7 。 

Q6. [交换]交换 R t ^ Rj 并转回步骤 Q3 。 

Q 7. [压入栈](现在子文件 R r “ R r ： R r 已经被分划，使得对于/ - l « j ， 


K k <Kj 且对于 + 如果 r 

r) 插到栈顶上，置 r —- 1，并转到 Q2。 如果 



r) 插到栈顶上，置 r-; ~1,5 
-1) 插入到栈顶上，置 I —” 
某个将来的时刻对子文件兄 


>M ，则把 (j + 

. ; >M， 则把 （Z 


# ■ # 


，并转到 Q2( 在栈上的每个项目 U ,6) ,是在 
私排序的一个请求）。否则如果 r-jSM 


> j - I ，置 j + 1 并转到 Q 2; 或者如果 j - 置 j - 1并 

转到 Q2 。 

Q 8 .[弹出栈]如果这个栈不空，则撤销它顶部的项（ 〆 ， 〆 ），置 l — 

并返回步骤 Q2 。 

Q 9 .[直接插入排序]对于』=2,3,〜^如果冯」〉％，则进行下列操 作：置 

K — K^R — Rpi—j - 1;然后 R i + i ^~ Ri 并且 f — ^ - 1, 一 次或多次直到 

;然后置只/ + 1—尺（这是如同习题 5.2.1-10 和答案 5.2.1-33 所提 


议的那样修改过了的算法 5.2. 1 S 。 如果 M = l , 则步骤 Q 9 可以省略。警 


蠡 
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告：最后的直接插入可以掩盖步骤 Q 1 〜 Q 8 中的 失误； 不要仅仅由于一个实 
现给岀正确的答案就信任它）。 ■ 


对应的 Mix 程序是相当长的，但并不复杂。事实上，大部分代码是专门用于步 
骤 Q 7 的，它仅仅以一种非常直截了当的方式来摆弄那些变量。 

程序 Q (快速排序）有待排序的记录在单元 INPUT + 1 到工 NPUT + N 中； 假定单 
元工 NPUT 和 INPUT + N + 1 分别包含 MIX 中最小和最大可能的值。桟保存在单元 
STACK+1,STACK+ 2, …中； 关于栈所需单元的精确数目，见习题20。 rI 2= Z , rI 3 = 

厂，…三^必三厂也三栈的大小^八三尺三尺。我们假定 N>M 0 



A 

EQU 

2:3 



B 

EQU 

4:5 


01 

START 

ENT6 

0 

i 

02 


ENT2 

1 

i 

03 


ENT3 

N 

i 

04 

2H 

ENT5 

1,3 

A 

05 


LDA 

工 NPUT, 2 

A 

06 


ENT4 

1,2 

A 

07 


JMP 

OF 

A 

08 

6H 

LDX 

工 NPUT, 4 

B 

09 


ENT1 

INPUT, 4 

B 

10 


MOVE 

工 NPUT, 5 

B 

11 


STX 

工 NPUT,5 

B 

12 

3H 

INC4 

1 

C -A 

13 

OH 

CMPA 

工 NPUT ， 4 

C 

14 


JG 

3B 

C 

15 

4H 

DECS 

1 

C~c 

16 


CMPA 

工 NPUT ， 5 

c-c' 

17 


JL 

4B 

c-c 

18 

5H 

ENTX 

0,5 

B + A 

19 


DECX 

0,4 

B + A 

20 


JXP 

6B 

B + A 

21 


LDX 

INPUT,5 

A 

22 


STX 

INPUT,2 

A 

23 


STA 

工 NPUT ， 5 

A 


栈元素的第一个分量 
栈元素的第二个分量 
Q 1. 初始化 。 置栈为空 

置 1—1 
置 r<~N 

Q 2. 开始新阶段 o Mj — r + 1 
置 K — K 【 

置 i^L + 1 

转 Q 3 并省略％‘一〗+ 1” 

Q 6 •交换 


Ri^ — *"Rj 

Q 3. 比较 H 置 + 1 

如果 K > K ,， 则重复 
Q 4 .比较 K : K t 。 置 j — j -1 

如果 K <\， 则重复 
Q 5 •测试 


如果则转 Q 6 

R 广 R 


111 • 


排序 


24 

7H 

ENT4 

0,3 

25 


DEC4 

M,5 

26 


ENT1 

0,5 

27 


DEC1 

M，2 

28 


ENTA 

0,4 

29 


DECA 

0,1 

30 


JANN 

IF 

31 


J1NP 

8F 

32 


J4NP 

3F 

33 


工 NC6 

1 

34 


ST2 

STACK,6(A) 

35 


ENTA 

-1，5 

36 


STA 

STACK, 6(B) 

37 

4H 

ENT2 

1,5 

38 


JMP 

2B 

39 

1 H 

J4NP 

8F 

40 


J1NP 

4B 

41 


INC6 

1 

42 


ST3 

STACK,6(B) 

43 


ENTA 

1,5 

44 


STA 

STACK,6(A) 

45 

3H 

ENT3 

-1，5 

46 


JMP 

2B 

47 

8H 

LD2 

STACK,6(A) 

48 


LD3 

STACK,6(B) 

49 


DEC6 

1 

50 


J6NN 

2B 

51 

9H 

ENT5 

2 - N 

52 

2H 

LDA 

INPUT 十 N,5 

53 


CMPA 

工 NPUT+ N - 1,5 

54 


JGE 

6F 

55 

3H 

ENT4 

N- 1,5 

56 

4H 

LDX 

INPUT,4 

57 


STX 

工 NPUT+ 1,4 


^ 07‘ 压入钱 

A rI4 和 r — j - 

A 

A rll^j —卜 M 

A 

A 

A 如果 r - j>j - /，则跳转 

^ 如果 — / > r - j ，则转 Q 8 

S ' + A 〃 如果 - _; ，则跳转 

5 (现在 j - 

S ' 

S ' 

S ' U ， rl )4 栈 

+ 置 /—j + l 

S ' + 转 Q 2 

A - A ’ 如果 M > r ~ j^j - /，则转 Q 8 
S - S ' + A ，f， 如果 r - j > AO 厂/，则跳转 
S _ S ' (现在， -- / > M ) 

S - S ' 

S - S ' 

S ' (j + i ， r )> 栈 

S - S ' + A " 置 r^j — 1 
S - + A " 转 Q 2 

S + 1 Q 8. 弹出栈 

S + l 

S + 1 (/ ， r ) e 栈 

S + l 如果栈不空则转 Q 2 

1 Q 9 •直接插入排序。 卜2 

N - 1 K — K ^ R—Rj 

N - 1 (在这个循环中， rI 5 ^j - iV ) 

N -1 如果，则跳转 

D 置 i^—j - 1 

E 

E 置艮心見 
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58 

DEC4 

1 

E 

置 - 1 

59 

CMPA 

INPUT ,4 

E 


60 

JL 

4B 

E 

如果尺<\，则重复 

61 5H 

STA 

INPUT +1,4 

D 

尺 , + I — 

62 6H 

INC5 

1 

N-l 


63 

J5NP 

2B 

N-l 

2<j<N 1 


快速排序”的分析 用程序 Q 表示的计时信息，不难利用基尔霍夫守恒定律 
(参见 1.3.3 小节）和压人栈的每一个信息终归又被撤销这一事实导出。基尔霍夫 


定律应用于步骤 Q 2 还表明 


A = 1 + ( S ^ 4- PC ，、 + (S - + A ") + S = 2 S + 1 + A " + (15) 

因此总共的运行时间为 

24 A + 11 B + 4 C + 3 D + 8 E + 7 N + 9 S 单位 

其中 

A = 分划阶 段数； 

B = 在步骤 Q 6 中的交 换数； 

C = 在进行分划时所作比 较数； 

D = 在直接插人（步骤 Q 9) 期间的 次数； 

£:二被直接插人消去的反 序数； 

S = 某项压入栈的次数。 (16) 

通过分析这6个量，就能对参数 M 进行精巧的选择， M 是用来确定直接插人 
和分划之间的“阈值”的。这个分析是特别有教益的，因为这个算法比较复杂；揭示 
这个复杂性是阐明重要技术的一个好方法。然而，非数学方面的读者，请跳到等式 
(25) 0 

像在这一章中大多数其它的分析那样，假定有待排序的这些键码是不 同的； 习 
题18指出，这些键码之间的相等性并不严重地损害算法 Q 的效率，而且事实上它们 
似乎还有助于提高效率。由于这个方法仅依赖于键码的相对次序，也可以假定，它 
们只不过是在某种次序下的 U ，2, …， N 1。 

我们可以通过考虑最初分划阶段的行为来着手解决这个问题，这个最初的阶段 
使我们头一次到 Q 7 去。一旦已经实现了这个分划，则如果原来的文件是在随机次 
序下的，仏…民^和 1 — 两个子文件也将是在随机次序下，因为在这些子文 

件中元素的相对次序对分划算法没有影响。因此随后的分划的贡献可以通过对 N 
用归纳法确定（这是一个重要的发现，因为某些违背这个性质的其它算法已经证明 
是相当慢的 ；MCompufing Surveys 6 (1974) ，287〜289)。 

设 s 是头一个键码 Ki 的值，并假定 心，… K s 中恰有 z 个大于 H 记住正被排序 
的键码是整数 il ，2, …， N |)。 如果5 = 1，则容易看出在分划的头一阶段发生了什么 
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情况 ：步骤 Q 3 被执行一次，步骤 Q 4 被执行 N 次，然后步骤 Q 5 使我们转去执行 
Q 7。 所以在此情况下头一个阶段的贡献是 A = 1， B =0， C=/V + 1。 当 s > l 时（见 
习题21)，一个类似的但稍微复杂的论证说明 ，一 般地，头一阶段对于总运行时间的 
贡献是 

A = 1 ,B = t y C = N + 1 对于 1 < s < /V (17) 

对此，还要加上稍后阶段的贡献，这些阶段分别对具有 s -1 和 / V - s 个元素的子文 
件进行排序。 

如果假定原始的文件是随机次序的，则现在已有可能写下定义 A ，召，〜，5的 
概率分布的生成函数公式（见习题22)。但为了简单起见，这里仅仅考虑这些量作 
为 iV 的函数的平均值八^£~，…， S N 。 例如，考虑在分划过程中出现的比较平均次 

数 C N 。 当 iV < M 时， C N = 0。 否则由于任意给定的 s 值以 1/ N 的概率出现，我们 

有 


N 


C N 


N 


S(N + 1 + 



C 




S 


N 




2_ 

N 



C k 


对于 N > M 


0^k<N 


对于其它的量，]仏知，£^，£^,5^类似的公式成立（见习题23) 


o 


有一个简单的方法来解形如 


X 


n 


fn 


2 



n 



OCk 


对于 n > 


m 


0^k< n 


的递推关系。头一步是脱去求和式符号 


n 


+ l):r 


+ 1 


n 



i )/” 



2 



x k 




nx 


rt 


nfrt 



2 



x k 


0^k< n 


可以把两者相减，得到 


n 



l ) 


x 


n 



nx 


n 


g 



，其中 a 


^ + + l — Ufn 


现在递推式有了简单得多的形式 


71 



1) 


X 




(n + T ) x n 



gn 


对于 w m 


任何具有一般形式 


= b n x 



gn 


(18) 


(19) 


( 20 ) 

( 21 ) 


的递推关系可以约化为一个和式，只要以“求和因子”乘以两 
边 即可； 我们得到 




y n + c nJ 


其中义 


a 


-l 


b 




b n - 


X 


c 


rt 


a 0 …〜一 i 

Mi ••人 


gn 


( 22 ) 


在情况 (20) 中，求和因子就是 72! Kn + 2 )\ 
单的关系 


1 /( n 



l )( rz +2)， 所以我们发现简 
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= 工” (n + l)A + i - nf n 

w+2 /z + 1 (n + l)(w+2) f 


对于 n ^ m 


(23) 


是 （19) 的 一 ^个 推论。 

例如，如果我们置人 = l / n ， 则对于所有得到意外的结果 xj(n + l) = 
xj(m + l ) 0 如果我们置 / w = n + 1，则对于所有72，得到 

x t J ( 72 + 1 ) = 2/( 72 + 1 ) + 2 ln + …+ 21 ( m + 2) + x n J(m + 1 ) = 

2( H „ + 1 - H m + { ) + x n J(m + 1) 

因此通过置 m = M + 1和对于=0,我们得到 （18) 的解； 所求的公式是 


C N = (N + 1 ) (2Hjv+i - 2H m+2 + 1 ) 〜 


2 (N + l)ln 对于 N>M (24) 

习题6.2.2-8证明，当从=1时，心的标准差近似于 y (21-2/)/3 N ; 同 （24) 相比 
这是相当小的。 

以类似的方式，可以求出其它的量（见习题 23); 当 N > M 时我们有 

A N = 2 (N + 1 )/(M + 2)-1, 

B n = +(iV + 1) (2H N+1 - 2 H m +2 十 1 — 2) + 去， 

D N = (N + 1)(1 - 2 H m+1 /(M + 2))， 

E N = j(N + 1) M(M - 1 )/(M + 2), 

S N = (N + 1)/(2 M + 3)-1， 对于 N > 2 M + 1 (25) 

上面的讨论说明，通过使用以前仅仅应用于较简单情况的那些技术，有可能对 
相当复杂的程序的平均运行时间进行精确的分析。 

公式 (24) 和 (25) 可以用来确定在一台具体的计算机上 M 的“最好”的值。在 

MIX 的情况下，对于〜>2妨+ 1，程序0平均要求（35/3)(〜+ 1)仏 +1 + |(~ + 1) 


/( M ) - 34.5 个单位的时间，其中 

/( M ) = 8 M - 70 H M+2 + 71-36 ^ + ^3 (26) 

我们要选择 M 使得 /( M ) 是一个极小值，而且简单的计算机计算表明 M = 9 是最 
好的。对于很大的 N } 当 M = 9 时，程序 Q 的平均运行时间近似为 11.667 (N + 1) 
In iV - l .74 N -18.74 个单位。 

考虑到程序 Q 只要很少的存储空间，所以平均说来，它是十分快的。它的速度 
主要取决于以下事实，即在步骤 Q 3 和 Q 4 中的内循环是极其短的——每个仅含3 
条 MIX 指令（见行12〜14和15〜17)。在步骤 Q 6 中的交换次数，仅大约是步聚 Q 3 
和 Q 4 中的比较数的1/6,因此通过在内循环中不比较 i 和夂我们已节省相当的时 


0 




115 




但对于算法 Q ， 最坏情况是什么呢？是否有某些它不能有效处理的输人？对于 
这个问题的答案是十分令人难堪 的：如 果原来的文件已经是有序的，且 X 1< X 2< 
… < K N ，则每个分划“操作”几乎都是无用的，因为它仅使子文件的大小减少一个元 

素！所以这种情况（它应是所有情况中最易于排序的）使得快速排序根本 不快； 它的 
排序时间同 iV 2 , 而不是同 Nlog 2 iV 成比例（见习题25)。和已经见到的其它排序方 

法不同，算法 Q 偏爱一个无次序的文件！ 

Hoare 在他开创性的论文中，曾建议用两种方法来弥补这种情况，其原理是选择 
支配分划的测试键码 K 的较好值。他的建议之一是在步骤 Q 2 的最后部分中选择 
Z 和 r 之间的一个随机整数我们可以在该步中把指令改成为 

K — K q ， R — R q ， R q — R q ，R (27) 

(最后的赋值“私 — iT ’ 是必 要的； 否则当 K 是被分划的子文件的最小键码时步骤 

Q 4 将以 ； =/-1停止）。按照等式（25)，这样的随机整数平均说来只需要被计算2 
(N + l)/(M + 2)- l 次，所以附加的运行时间不是很 多的； 因此随机选择针对最坏 
情况的出现给出很好的保护。甚至一个温和地选择的都将是安全的。习题58证 
明，通过真正随机的（?，比如说，多于 20 iV / lnN 次比较的概率将肯定地小于10~ 8 。 

Hoare 的第二个建议是考察文件的小样品，并选择这个样品的一个中值。这个 
方法已为 R . C . Singleton[CACM 12 ( 1969) ，185〜187 ] 所釆用。他建议令是3个 

值 

， Kid + r ) j 2 j , K r (28) 

10 

的中值。 Singleton 过程把比较的次数从 2 N In N 减少到大约 In N (见习题 

29) o 在这种情况下可以证明渐近于 C N /5, 而不是 C N /6, 所以这个中值方法稍 

微增加了花费在传送数据中的时间 数量； 因此总运行时间大约减少8% (详细的分 
析见习题56)。最坏的情况仍然是 N 2 阶的，但是这样缓慢的行为很少出现。 

W . D . Frazer 和 A . C . Mckellar [JACM 17 ( 1970)，496 〜 507 ] 已经建议取一个更 

大得多的由 - 1个记录组成的样品，其中把々选择成使 2 ^ NI In N 。 这个样品 
可以用通常的快速排序方法进行排序，然后通过对这个文件进行 A 次扫描把样品插 
入到剩下的记录当中（把它划分成 V 个子文件，以样品的元素为界）。最后对这些 
子文件排序。当 N 在一个实用的范围内时，这样一个“样品排序”过程所需要的平 
均比较次数，大体等同于在 Singleton 中值方法中的次数，但是当〜时，它减少 
到渐近值 Nig N 。 

把快速排序同其他的方案组合在一起，可得到在最坏情况下 O ( JVlogN ) 排序时 

间的绝对保证，连同平均说来快速的运行时间。例如 D . R . Musser[Software Practice 
& Exper . 27 (1997) ，983 〜 993] 已经建议对快速排序栈上的每一项加上一个“分划 
深度”的分量。如果发现任何子文件已经被划分比如说多于 21 gN 次，我们就可放弃 
算法 Q , 并且转到算法 5.2.3 H 。 内循环时间保持不变，所以平均的总运行时间几乎 
保持和以前 一 样。 
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Robert Sedgewick 在 Actat Informatica 7(1977) ， 327 〜 356 上，以及在 CACM 21 

( 1978 ) 847 - 857,22 (1979) ， 368 上对一些快速排序的优化变形做了分析。关于基 

于15年以上的经验，已被调整成适合于 UNIX 软件库的一个快速排序的版本，请参 
见 J • L . Bentley 和 M • D . 的 Software Practice & Exper 23 ( 1993) , 1249 〜 

1265。 

基数交换 现在讨论另一种方法，它非常不同于以前所看到的任何排序 方案； 
它利用键码的二进 制表示 ，所以仅仅适用于二进制计算机。这个方案不是比较两个 
键码，而是检査这些键码个别的二进位，看看它们是0还是1。在其他方面，它有交 
换排序的特性，而且事实上，它颇类似于快速排序。由于它依赖于基数2的表示，故 
我们称它“基数交换排序”。这个算法可粗略描述 如下： 

1) 按键码的最高二进位对序列排序，使得有前导0的所有键码都出现在有前导 
1的所有键码之前。这个排序首先寻找有前导1的最左边的键码 K ,, 以及有前导0 

的最右边的键码仏；然后交换艮和巧并重复这个过程，直到 i>Jo 

2) 设是具有前导0的诸元素，是其余的元素。对应用基数交换排序 
方法（现在从左边第二位开始而不是从最高位开始），直到 F q 整个地被排序 为止； 然 
后对同样这样做。 

例如，表3示出了对于我们的16个随机数如何进行基数交换排序，这些数已被 
转换为八进制。表中的阶段1示出初始的输人，在对第1位进行交换之后，我们到 
达阶段2。阶段2按第2位对头一组排序，而阶段3按第3位进行工作（读者可用心 
算把八进转换成10位二进制数，例如,0232代表 (0 010 011 010) 2 )。当按第4位进 

行排序后到达阶段5时，发现剩下的每一组只有一个元素，所以文件的这部分已不 
必进一步考察。“ 4 [0232 0252]” 指的是下一步要按左起第4位对子文件0232 0252 
进行排序。对本例来说，当按第4位进行排序时，没有 进展； 需要进到第5位，才能 
把这些项区分开来。 

表3中所示的整个排序过程花费22个阶段，稍多于快速排序的相应数目（表 
2)。类似地，按位检查的数目为82次，是相当 髙的； 但将看到，假定这些键码是一致 
分布的，则对于很大的 iV 来说，按位检查的数目实际上小于快速排序所做的比较数 
目。表3中的交换总数是17次，它是完全适度的。注意，尽管被排序的是10位数, 
但这里按位检查决没有超过第7位。 

如同在快速排序中那样，可以使用一个栈来记住正在等候的子文件的“边界行 
信息”。一种方便的办法是不首先去对最小的子文件排序，而是简单地从左到右进 
行排序，因为在这种情况下，栈的大小决不能超过正被排序的键码的位数。在下列 
算法中，栈项目 （ r ,6) 用来表示将被按第6位进行排序的一个子文件的右 边界； 左 
边界不必记录在这个栈中，由于这一过程的自左到右的本性，它是隐含的。 

算法 R (基 数交换排序） 适当地重新排列记录…，在排序完成之后, 
它们的键码将是有序的，假定每个键码都是一个非负的 m 位的二进 
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数， i 个最高位称为这个键码的“位 广。 需要一个至多能存下 

m - l 个项目的辅助栈做临时存储。本算法实质上遵循上文中所描述的基数交换 
分划 过程； 对它的效率可以有若干改进，如下文和习题中所描述的那样。 

R 1. [初始化]置栈为空，并置 /— I , r —7 V , 6—1。 

R 2. [开始新阶段](现在希望按位6对子文件& 排序； 由于这个算 

法的本性，我们有 Z < r ) 如果 / = r ， 则转到步骤 R 10 (由于一个单字文件 
已被排好序）。否则置 — r 。 

R 3. [检査中的 1] 考察 K , 的位6。如果它是1，则转到步骤 R 6。 

R 4. [ f 增值]纟增加1。如果则返回步骤 R 3; 否则，转到步骤 R 8。 

R 5. [检查 \ + 1 中的 0] 考察 K ; + 1 的位6。如果它为0,则转到步骤 R 7。 

R 6. b 减值] J /减1。如果则转到步骤 R 5; 否则，转到步骤 R 8。 

R 7. [交换氏，均 + 1 ]交换记录尺 ㈠ 民 + 1; 然后转到步骤 R 4。 

R 8. [检査特殊情况](这时已经完成了一个分划阶段键码，…， 

Kj 的位6是0,而键码 K t ，…， K r 的位6是 1) 6增加1。如果6 >772,其 

中 m 是在这些键码中总的位数，则转到步骤 R 10 (在这样一种情况下，子 
文件尺…已被排好序。如果在文件中不可能出现相等的键码，则不必 

进行这个检查）。否则，如果或^ = r ， 则返回步骤 R 2( 所有考察的位 
都分别为1或都为0)。否则，如果7 = /，则3增加1并且转到步骤 R 2( 仅 
有一个位为0)。 

R 9 .[压入栈]在栈顶插入项目 （ r ，6)， 然后置 r — j 并转到步骤 R 2。 

R 10. [弹出栈]如果栈是空的，则已经完成了 排序； 否则置 Z — r + 1,删取栈顶 

的项目（ 〆 ，“），置 r — 〆 』—，并返回步骤 R 2。 | 

程序 R (基数交换排序） 下列 MIX 代码基本上使用和程序 Q 同样的约定。我 

们有 rIl = Z - r , rI 2 =r , rI 3 三 f , rI 4^ j ， rl 5 三 m _ b , rI 6 三找的大小，但对于某些（下 

边指出的）指令保持 r I 3 =i - j 或 r I 4二） - ;是方便的。由于基数交换的二进制 
属性，这个程序使用操作 SRB (二进制右移 AX )， JAE ( A 为偶数时转移）以及 JAO(A 
为奇数时转移），这些操作已在 4.5.2 小节中定义。假定 N >2 0 


01 

START 

ENT60 

1 

02 


ENT1 

1 -N 

03 


ENT2 

N 

04 


ENT5 

M- 1 

05 


JMP 

1F 

06 

9H 

工 NC6 

1 

07 


ST2 

STACK,6(A) 

08 


ST5 

STACK,6(B) 


R 1. 初始化 。 置栈为空 
1 1—1 

1 r —N 

1 b^l 

1 转 R 2( 省略检验 l = r ) 

S R 9 .压入栈。 [ rI 4=/- i ] 

S 

S (厂，6)=>栈 
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09 

10 

11 1H 

12 

13 3H 

14 

15 

16 

17 6H 

18 


0,4 
- 1，3 
0,1 
0,2 
0,4 

INPUT , 3 

0,5 

4F 

1,3 

8F 


ENN1 

ENT2 

ENT3 

ENT4 

INC3 

LDA 

SRB 

JAE 

DEC4 

J4N 


19 5H 

20 
21 
22 

23 7H 

24 

25 

26 

27 4H 

28 


INC4 0,3 

LDA INPUT +1,4 

SRB 0,5 

JAO 6B 

LDA INPCT + 1,4 

LDX INPUT,3 

STX INPUT +1,4 

STA INPUT,3 

DEC3 -1,4 

J3NP 3B 


29 INC3 0,4 

30 8H J5Z OF 


31 DEC5 1 

32 ENT4 -1,3 

33 DEC4 0,2 

34 J4Z IB 

35 DEC4 0,1 


S 

S 

A 

A 

C / 

C , 

c / 

C / 

C"+ X 

C" + X 

c " 

c 

c 

c 

B 

B 

B 

B 

C ~X 

C -X 

A-X 

A 

A-G 

A-G 
A — G 
A-G 
A~ G~ R 


r I l^~l ~ j 


尺 2 .开始新阶段 [ rl 3= i - j ： 

i — — r [ r 工 3 = z ’ - j ] 

尺 3 •检查 K ; 是否为 1 

rA 的个位 — K , 的位办 

如果它为0,则转到 R 4 
R 6 .J 减值。 j—j - 1 

[rl 4 = j ~ i ] 

如果则转到 R 8 

[ rl 4 = 7 — ] 

.检查是否为0 

rA 的个位 — & + 1 的位6 

如果它为1，则转到 R 6 
R 7 ‘交换 R ^ R i + l 


R4, t 增值 。 + 1 

[ rI 3= i ~ j ] 

如果 i < j 则转 R 3 

[ rI 3= i ~ j ] 

rI 3 —i 

R8 . 检验特殊情况 

[ rI 4 = 未知] 

如果 b 二 m 则转到 R 10, 否则 
b—b — 1 

rI 4 —j 

r \ A^j — r 

如果 j 二 r ， 则转到 R 2 

rI4—j — Z 
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36 


J4N 

1B 

37 


J4NZ 

9B 

38 


工 NC1 

1 

39 

2H 

J1NZ 

1B 

40 

0H 

ENT1 

1,2 

41 


LD2 

STACK,6(A) 

42 


DEC1 

0,2 

43 


LD5 

STACK,6(B) 

44 


DEC6 

1 

45 


J6NN 

2B 


A - G-R 如果 j < Z ， 则转到 R 2 
A - G-L - R 如果 jYZ ， 则转到 R 9 

K /一/ + 1 

K + S 如果则转移 
s + 1 mo. 弹出栈 

S + 1 
S + 1 

S + 1 栈 4( 厂 ，6) 

S + 1 

S + 1 如果栈非空，则转到 R 2 I 


这个基数交换程序的运行时间依 赖于： 

A = 遇到的 L < r 的阶 段数； 

5 =交 换数； 

c = cr + c 〃 z ^4 检查的 数目； 

G = 在步骤 R 8 中的次数； 

K = 在步骤 R 8 中 b < m ，] 二 I 的 次数； 

L = 在步骤 R 8 中 b <^ m , j < L 的 次数； 

尺=在步骤 R 8 中 b<m yJ = r 的次数； 

S = 元素压入栈的 次数； 

X = 在步骤 R 6 中 j < i 的次数。 (29) 

由基尔霍夫定律 ， S = A-G-K-L - K ; 所以总运行时间为27 A + 8 B + 8 C 
- 23 G - 14 X - 17 L - 19R - X + 13个单位。如习题34所示，以一个较复杂的程序 
为代价，位检查循环可以进行得更快些。每当 r - /充分小时，像在算法 Q 中那样， 
也可通过使用直接插入来提高基数交换的速度；但此处我们并不详细介绍这些精化 

措施 。 

为了分析基数交换的运行时间，可以使用两种类型的输入数据： 

( i ) 假定 N = 2 m 并且待排序的键码就是随机顺序下的整数0，1，2, …， -1; 

( ii ) 假定 m = m (无限地精确）而且有待排序的键码是在 [0. • 1) 中独立地一致 

分布的实数。 

情况 （ i ) 的分析相对来讲是容易的，所以已留作读者的习题（见习题35)。情况 
( U ) 相对来讲是困难的，所以它也留作一个习题（见习题38)。下面为对于这些分析 


结果的粗略 近似： 

量 

情况⑴ 

情况 （ U ) 

A 

N 

aN 


•121 • 


第 5 章排序 



B 


lg N 


lg N 


C 


N \g N 


N lg N 


G 


1 


2 


N 


K 0 

L 0 


R 

S 

X 




(30) 


这里 a = l / ln 2 〜 1.4427。 注意尽管情况 （ H ) 花费的阶段要多44%，但是交换、位检查 
和栈访问的平均次数，对于两种情况来说实质上是相同的。平均来说，我们的 MIX 
程序，在情况 （ ii ) 下对 iV 个项目排序花费了近 14.4 N in N 个时间单位，而且使用习 
题34的建议还可以减少到大约 11.5 N In iV ; 对于程序 Q ， 对应的数字是 11.7 N 
In A /， 使用 Sirig [ et 0 n 三个取中的建议，它可以减少到大约 10.6 AMn iV 。 

于是，当对一致分布的数据排序时，平均说来，基数交换排序和快速排序花费大约 
同样长的时间。在某些机器上，它实际上比快速排序还稍微更快些。习题53指出，对 
于非一致分布的数据这个过程减慢到什么程度。重要的是要注意，整个分析是以所有 
键码都不相同这个假定为依 据的; 当出现相等的键码时，如上定义的基数交换就不是 
特别有效的。 因为在6变成 > m 之前，它白白浪费一些阶段来分开相等的键码的集 
合。弥补这个缺陷的一个似乎有理的方法，在习题40的答案中提出。 

基数交换和快速排序两者实质上都是以分划的思想为基础的。诸记录被交换， 
直到这文件被分成两个部分为止 :一个 左边的子文件，其中所有的键码都(对某 
个 K ), 以及一个右边的子文件，其中所有的键码都 >尺。快速排序把这个文件中的 
一个实际的键码选为 K ，而基数交换则实质上以二进表示为基础选择一个人为的键 
码 K 。 从历史上看，基数交换是由 P . Hildebrandt , H . Isbitz , H . Rising 以及 J . 

Schwartz [/ACM 6( 1959) ， 156 〜 163 ] 发现的，大约比快速排序早一年。其它的分划 
方案也是可 能的； 例如，当已知所有的键码位于“和 r 之间时 ， Johy McCarthy 建议 

置 K^~(u + v ) 0 Yihsiao Wang (王义孝）已经提议把诸如 （28) 的3个键码值的均 

值用作分划的 阈值; 他证明了 对一致 分布的随机数据排序，所需要的比较次数近似 
为 1.082 N lg A /。 
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5.2 内部排序 


M . H.van Emden 提岀了另外一种分划策略 [CACM 13(1^0) ，563〜 567] :他不 
是预先选择 _ K ， 而是随着分划的进行，记住 K " = mln ( Kj , 
…， K ,.)， “学会”如何选一个好的 K 。 我们可以令/增值，直到遇到一个大于尺/的 

键码为止，然后令 J 减值，直到遇到一个小于 K 〃 的键码为止，然后交换和/或调整 f 
和 K 〃。 对于这个“区间交换排序”方法的经验测试指出，它运行得比快速排序稍微 
慢些，它的运行时间看起来是这样难以分析，以致于绝对找不到一个适当的理论解 

释，特别是因为在分划之后诸文件已不再处于随机次序了。 

把基数交换推广到大于2的基数问题，在 5.2.5 小节中讨论。 


*渐近方法 交换排序算法的分析导致了某些特别有教益的数学问题，这些问 
题使我们更多地学会如何研究诸函数的渐近行为。例如，在对冒泡排序的分析中 


(等式 9) 遇到过函数 


它的渐近值是什么呢? 



W 


77 




0^ r < }} 



(31) 


我们可以照搬对对合数等式 5.1.4-(41) 的研究 方式; 读者将发现在进一步阅读 

之前，复习一下 5.1.4 小节末尾的讨论是有帮助的。 

检查 （31 ) 可知，5 = 72的贡献大于” _ 1，等等；这提不以代替 S 。 事实 

上，立即发现，使用替换〖= 72-<5 + 1，7?1 = ?2+1把 (31) 变为 


1 


m 


W 


7)1 


1 


m 



m — t 



-l 





0^ r 7)t — 


是最方便的。内层的求和可由欧拉求和公式得到熟知的渐近级数，即 



厂 


一 1 


0<r<N 


t 




2 


( N L 


— i 


一 8 


t \ 



B2 

2 ! 


{t — DiN 1 - 2 - S t2 ) + 


t 2 


_ # ■ 



丄 Sp k ( AT )- 〜）十 0( N l - k ) (33) 

t ;=0 

(见习题 1.2.11.2-4)， 因此问题归结为研究形如 


m 



( 


m 


- t)\{m 


1 ^ ^ < m 



k 1 


(34) 


的和。如同在 1.4 小节那样，可以证明每当〖大于 m 1/2 〜时， 这个求和数的值是可 
以忽略的 0( exp (_ /))，因此可以置，二 0( m 1/2+( ) ，而且用斯特林近似代替这些 

阶乘： 



我们因此对 

r k ( m ) = 2 ^ t 2 jlm t k , k 1 (35) 

1 ^ / < m 

的渐近值感兴趣。这个和也可以扩展到整个1<〖< ⑺的范围而不会改变它的渐近 
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第 5 章排序 


值，因为对于 〖> m 1/2+ f 的那些值是可以忽略的。 

设 = 和 f k ( x ) = 、当 k >0 时，欧拉求和公式告诉我 
们 


S fk(o 

0^ / < W 



-f ( r l) (o)) + r p 



0 ( m ~ pl2 ) (36) 

因此每当 k >0 时，通过使用实质上和以前使用过的同样的思想，就能得到一个 
Q ( m ) 的渐近级数。但当々= -1 时，这个方法就失灵了，因为 /_ i (0) 无 定义； 我们 

也不能仅仅从1到 m 求和，因为当下限为1时，余数不给出越来越小的772的乘方 
(这是问题的症结，因而读者在进一步阅读之前应确保自己了解这个问题）。 


为了摆脱这个困境，可以定义 = ( e~ x - = g 

然后可以以简单的方式从 < ni f - 1 ( 〖）得到/_ JCOsO 和 r — Jm )。 等式 （36) 现 
在对 A = - 1成立，而且剩下的积分是“熟知的”，由习题43， 


2 


V2 


m J 


a 


m 




f-i ( x)dj ： 




2 


m x 2 j2m 


1 


dx 


o 


X 


A 


m/2 


e 


: y 


-1 


0 


: y 


dy 



e 




: y 


dy - In 


m 

y 


~ 7 — lnm + In 2 + O(e ” 

现在已经有了足够的事实和公式来作出答案，如习题 44 所示 


12 


W 


n 




min m 




(y + \n 





49 


\/ 2tC7/Z + 吾 + 0(72 — 1/2 )， 

JO 


m = n + 1 


这就完成了对于冒泡排序的分析。 

对于基数交换排序的分析，需要知道当 〃 — oo 时有限和 


(37) 


U 




(38) 


的渐近值。这个问题要比至今遇到的任何其它渐近问题更 难些； 幂级数展开，欧拉 
求和公式等的初等方法，证明是不适用的。 N . G.de Briiijn 提出了下列推导。 

为了摆脱在 （38) 中大因子 -1 Y 的抵消作用，我们把和重新写成一个无穷 

级数 



» 
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(39) 


2(2 j (l _ 2 - J ) n - 2 J 



n 




如果置 


x 


nl 2】 ， 



2)(1 - 2。广 - 2 ; + n 


_n 

x 


1 - 


x 

n 


-1 



x 


当 


X 


< n ( 时，有 


1 - 


n 


exp[n In f 1 — 


x 

n 


exp ( ~ x + x 2 0 (n 


-l 


)) 


(40) 


而这提示以 


T 


E(?e 


n/2 


- 2 J 



n 


(41) 


}>l 


逼近 （39)。 为了论证这个逼近，有 7； 

X „ = 2 (汐 （1 一 2 - j ) n - 2 J W 


X ”+ 八 ，其中 


[即 x > Y 的诸项] 


J >1 


y^j 0 (ne 


nl2 


[因为 0 < 1 - 2 


< e 


A 


l- 


0( n log ne n ) 


[因为有 O ( logn ) 项] 


以及 


y 


2 ( 2 ; (1 - 2~ j y - 2U 


71/2 7 


[1< ¥的诸项] 


2 } ^n 


s 

2 J >n 1 ' 1 


eU 。⑴ 


[由 （40)] 


以下的讨论将揭示，后一个和是 0(1); 因此 U n ~ T n 


0(1)( 见习题 47) 


至今还未曾应用实际上不同于以前使用过的任何 技术； 但是7；的研究需要一 


种以复变理论的简单原理为基础的新思想。如果 


X 


是任何正数，则有 


i /2 +i 


e 


27ti 


T ( z)x Z dz 


l /2- i » 


2 丌 


r 


oo 


2 



i 丄 _(1/2+i0 cU 


(42) 


为了证明这个恒等式，考虑图 20 U ) 中所示的积分路径，其中 N ， JV /* M 是很大的。 
沿着这条回路的积分值是内部残数的和，即 


S 


X 


-(- k ) 1 • 


0^k<M 


lim (z + k ) T ( z ) 

- k 


s 


X 


0< k<M 


(- 1 ) 


k \ 


在顶线上的积分是 O 


1/2 





iN )| 


X 


&，而且我们有熟知的界限 


ro + in ) 




0( I r + iNr 1/2 e _/ —" 


N/2 


当 ] v 


时 


[关于伽玛函数的性质可见，例如 Erdelyi Magnus , Oberhettinger 以及 Tricomi 的， 
(Higher Transcendental Functions 1)( NewYork ： McGraw - Hill ， 1953) ，第 1 章]。因 
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此顶线积分是完全可以忽略的。0 


-irN/2 



1/2 


(NI xe ) 1 dt 


0 


底线积分也有一种类 


似的无关痛痒的行为。对于沿着左边线的积分，利用下列事实 


r 


2 



it - m =r y + it 


— M + + it 


_ »龜 


一 1 + 


2 



it 


r(y + i ^) o ( l/(M - 1 )!) 


因此左边的积分是 0( x m_1/2 /(M - 1)!) 



oo 


r y + \ 因而当 M , N , N / 


时，仅仅右边的积分残存，而这就证明了（42)。事实上，如果以任何正数代替 f ， 则 


(42) 成立 


0 


+ \N~M 


- \N-M 



+ IN 


— iA ^ 


M + \N 


0 


\N 


2~ ]n 


M-\N 


( a ) 


图 20 对于伽玛函数恒等式的积分回路 


( b ) 


同样的论证可用来推导涉及伽玛函数的许多其它有用的关系。我们可以以2 


的其它函数代替:或者可以用其它的量代替常数例如 


3/2 + ioo 


2 丌 i 


3/2-i 


T ( z ) x 


dz 


e 


- 1 



x 


(43) 


这 是在及 公式 (41) 中关键性 的量: 
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n 


s 


3/2 +i 



2kL _ 


T ( z )( nl 2 j ) 


-l- 


dz 


3/2-i 



这个和可以放置到积分里边，因为收敛性是绝对好的特性。我们有 




n 


w 




zv 


n lv K 2 


ZV 


—1)， 当況 （ W ) >0 时 




j>y 


因为 121 =2 



>1，因此 
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n f 3/2+i °° r ( z ) n~ l 


- Z 


2m 


3/2-i 


2 


—1 — Z 


-1 


dz 


剩下的是计算后边的积分。 


(44) 


(45) 


这次沿着远向右边扩展的一条路径进行积分，如图 20( b ) 所示。如果2 〜关 1， 


參 
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广 M 

则顶线积分是 0“ 1/2 e i N/2 I M + iN 丨而当 N 和 AT 比 M 大得多时，底线 

v j -3/2 / 

积分同样是可以忽略的。右线积分是 ofn+Mp I r(M + iO I dd 。 固定 m 并 

\ i — OO I 


命 N ， iV /— co , 证明 — 是 0( n _1_ M ) 加上在 -3/2<3? U )< M 范围内的残数 

之和。了（=)在 z = -1 和 z = 0 处有单极点，而 rz _1_ z 没有极点，而且当 z = -1 + 
2 mk ! In 2时 1/(2 — 1 _ 2 - 1 ) 有单极点 D 

在 -1 处的双重极点是最难处理的。可以使用熟知的关系 

r ( z + 1 ) = exp ( ~ yz + ^( 2 ) z 2 /2 - ^( 3 ) z 3 /3 + 以 4 ) 之 4 /4 -…) 

其中 f ( s ) = l _s + 2 _s + 3_ 5 + …二幵。，来导岀当 w = z + 1很小时的下列展 开式： 

r ( z ) =以 w + \)、 = - zv~ l + ( 7 - 1) + O ( zv ) 

n~^~ z = 1 — w In r 2 + O( vo 1 ) 

l /(2 _1_z — 1) = — t£； _1 /ln 2-~+0( w ) 


在 


2： 


_ 1 处的残数是这 3 个公式的乘积中 w _1 的系数， Bpj-(ln 72+ y - l)/ln 2 0 


加上其它残数即得公式 


T 


n 


n 


In n + / — 1 

In 2 


1 + 8( n ) + — 


2 



0( n 


M 


(46) 


n 


其中，对任意大的 MJ ( n ) 是颇奇怪的函数 


S ( n ) = 


2 


In 2 


L 況 （ r (— 1 - 2 mk/\n 2) exp (2 mk lg n )) 


k^l 


(47) 


注意 ，( Kn ) =》(2 n )。5( n ) 的平均值为0,因为每项的平均值为 0( 鉴于 4.2.4 小节 
中关于浮点数的结果，我们可以假定 （ lgn ) mod 1是一致分布的）。而且由于 
|r( — l + iOI = k /( i ( l+^ 2 )sinh ttOI 1/2 , 不难证明 


d ( n ) I < 0.000000173 


(48) 


于是对于实际应用，可以放心地忽略 &( n )。 然而在理论上，的渐近展开不能没 


有它； 这就是为什么是比较难分析的函数。 

由 （41) 中7；的定义，立即可以看出 


2 n 







n 


- n 

e _ 
n 


(49) 


因此 (46) 中的误差项 0( n M ) 是必不可 少的； 它不能以0代替。然而，习题54介绍 
了另一个分析方法,它通过推导出一个稍微奇特的收敛级数而避免这样的误差项。 

总之，我们已经推导岀困难的和 （38) 的 特性： 


U n = nig n + n | ^ ^ 一士 + &(«)) + 0(1) (50) 

我们用来得到这个结果的伽玛函数是 Mellin 转换的一般技术的一个特殊情况。 
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5 章排序 

Mellin 转换技术在研究面向基数的递推关系中极为有用。在习题51〜53和 6.3 节 
中可以找到这个方法的其它例子。 P . Flajolet , X . Gourdon 和 P . Dumas 在丁 heoreffcai 
Comp u ter Science 144(1995)，3 〜 58 中，给岀了对于 Mellin 转换及其在算法分析中 
的应用的一个精彩介绍。 


习题 

1 . [ M 20 ] 设~ … 、是1 1 ，…，? 7 1 的 一 个排列，并设 z ‘和 j 是使得 i < j 和 a ,. > ' 的下标。令 

a ! … <是由 q …通过交换 a , 和~得到的排列。问 a ! … < 能有比 q …更多的反序吗？ 

V 2.[ M 25] ( a ) 对排列3 7 6 9 8 1 4 5 2进行排序的极小交换次数是多少？ （ b ) — 般地说，给 
定11,的任何排列 ；r = ai ，设 xch (; r ) 是把排序成为递增次序的极小交换次数。试借 

助于； r 的“较简单的”特征来表达 xch (; r )( 有关测量一个排列的无序的另外一个方法，参见习题 
5.1.4 -41 )。 

3. [10] 冒泡排序算法 B 是一个稳定的排序算法吗？ 

4. [ M 23] 如果在步骤 B 4 中 t = l , 则实际上可以立即终止算法 B ， 因为随后的步骤 B 2 已没 
有什么有用的事要做。当对一个随机排列排序时，在步骤 B 4 中将出现 t = l 的概率是多少？ 

5 . [ M 25 ] 设心6 2 … 是排列 a ^ a 2 , 9 a n 的反序表。试证，对于 (X r < max ( ~ ，…， ) ，在 

冒泡排序的 r 次扫描之后, BOUND 的值是 max ] 匕+ f | 1 - r 。 

6. [ M 22 ] 设〜心…是 11 … rz 丨的 一 个排列，并设是它的逆 。 试证，对 q 进行 

冒泡排序的扫描次数是1 + max(ai - 1 y a 2 - 2,… y a n - rz )。 

l .[ M 28] 计算冒泡排序的扫描次数的标准差，并用 n 和函数 PU ) 来表达它[参见等式 （6) 
和（7)]。 

8. [ M 24] 推导等式(8)。 

9. [ M 48] 试分析在鸡尾混合排序算法中的扫描次数和比较次数。 注： 部分相关信息可参见 
习题 5.4. 8-9。 

10 . [ M 26 ] 设 002 … 是 1 1 , 2 , …， r2 丨的 一 个2有序排列。 （ a ) 对应的格磁盘通路第~步的 

端点坐标是什么（参见图 ID ? ( b ) 证明 〜，… 的比较/交换，对应于按对角线折叠这条 
通路，如图 18( b ) 所示。 （ c ) 证明当 d = 2 m - 1时， a 2 : a 2 + " a 4 : a 4 + 心…的比较/交换，对应于按对 

角线之下 m 个单位处的一条直线折叠形成的通路，如图 18( c )、（ d ) 和 （ e ) 所示。 

► ll .[ M 25] 11，2, …， 161的什么排列使由 Batcher 算法所完成的交换次数取极大值？ 

12. [24] 假定 MIX 是一台具有操作 AND 、 SRB 的二进制计算机，写出算法 M 的一个 MIX 程 
序。为把表1中的16个记录排序，你的程序花费多少时间？ 

13. [10] Batchei ■方法是一个稳定的排序箅法吗？ 

14. [ M 2 J ] 设 c ( N ) 是通过 Batcher 方法对 iV 个元素排序所进行的键码比较 次数； 这是步骤 

M 4 被执行的次数。 （ a ) 证明对于/>1，有 + + （ b ) 试求作为/的 

一个函数的 c (20 的简单表 达式。 提 示：考 虑序列 x t = c ( V ) l 2、 

15. [ M 38] 本题的任务是分析习题4的函数 C ( N ), 并求出当 iV = 2' +2〜+…+ 2^,^> e 2 
〜>0时关于 c ( N ) 的一个公式。 （ a ) 设 a ( N ) = c ( N + l ) ~ c ( N ) 0 证明 a (2 n ) = a ( n ) 

+ Llg (2 n )」 ，以及 <2(2 n + l ) = a ( r 2) + l ; 因此 
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a ( N ) = 1 ^ I - r ( e v - 1) + (q + e 2 + **' + e r ) 

( b ) 设 x { n )~ a ( n ) ~ a ( Ln /2 j ) ，于是 a ( n ) - x { n ) + x {\_ nl 2\ + : r ( LW 4」）+ …。设: y ( 打 ）= 工 （1) 
+ 工（2) + 〜+ :?:(”）；且设 z (2 n ) - y (2 n ) - a ( n ) , z (2 n + 1) - y {2 n + 1)。 证明 c (iV + 1)- 

z ( N ) + 2 z ( LN /2 j ) -f 4 z ( LN /4 j ) + …。 （ c ) 证明 y ( N ) 二 N + ( LN /2 J + 1) (q - 1) - 2 e i + 2。 （ d ) 

现在使 r 保持固定，综合以上所得，并借助指数 ~ 求出关于 4 N ) 的一个公式。 

\6\ HM 42] 假定 N 是 2 的次幂，求出当应用 Batcher 方法于 N 个不同元素的随机排列时， 
所需的平均交换次数的渐近值。 

► 17.[20] 和 K N +1 的值就是在 （13) 中假设的值，在算法 Q 中何处用了这一事实？ 

► 18.[20] 说明当所有的输入键码都相等时，算法 Q 中的计算如何进行。如果步骤 Q 3 和 Q 4 
中的“<”号改成，将发生什么情况？ 

19. [15] 如果使用一个队列（先进先出），而不是使用栈（后进先出），问算法 Q 是否仍将正确 
地 工作？ 

20. [ M 20] 作为 M 和 N 的函数，在算法 Q 中最多能有多少元素同时在栈中？ 

21. [20] 说明当诸键码不同时，为什么算法 Q 的最初的分划阶段要花费 （ n ) 中所确定的比 

较、交换等次数。 

22. [ M 25] 令 是当应用算法 Q 于 il ，2, …， Ni 的一个随机排列时， （16) 中的量 A 将等于 

k 的 概率； 并令 A n ( z ) = S k pkNz k 是对应的生成函数。试证对于 N < M , A n ( z ) = 1，而对于 N > 
M , A n ( z ) = z (^ i ^ s ^ N A ^ l ( z ) A N - ,( z ))/ N 0 试求确定其它概率分布 B n ( z )、 C n ( z )、 D n ( z )、 

£ nU )、 S n U ) 的类似递推关系。 

23. [ M 23] 令 A n 、 B n 、 D n 、 E n 、 S n 是当对|1，2, …， AM 的一个随机排列排序时 ，（16) 中对应 

量的平均值。试求类似于 （18) 的这些量的递推关系，并且解这些递推关系以得到 U 5)。 

24. [ M 21] 算法 Q 明显地做了比它所需要的还要多一点的比较，因为我们在步骤 Q 3 中能有 
i 二 j ， 而且甚至在 Q 4 中有 i > Jo 如果当时，我们避免进行所有的比较，则平均说来，所执行 

的比较次数 c N 是多少？ 

25 . [ M 20 ] 当输入的键码依次是数 1，2, …， N 时，问在程序 Q 的计时中量 A 、 B 、 C 、 D 、£和 
S 的精确值是什么（假定 N > M )? 

► 26. [ M 24] 构造一个输入文件，它使程序 Q 甚至比它在习题25中进行得还要慢（试找出一 
种真正坏的情况）。 

27. [ M 2 S ]( R . Sedgewick ) 考虑算法 Q 的最好情况 ：寻找 11,2 ，…， 231的一个排列，当 N = 23 
和 M = 3 时，对它排序所花时间最少。 

28 . [ M 26 ] 求类似于 (20) 的递推关系，它被 Singleton 修改过的算法 Q 的平均比较次数所满 
足（选择^作为1尺 1 ，尺_ +1 ) /2 」，心1的中值，而不是5 =尺 1 )。 

29 . [ HM 40 ] 继续习题28,求 Singleton 的“三值取中”方法中比较次数的渐近值。 

30. [25] ( P . Shackleton ) 当对多个字的键码排序时，许多排序方法随着文件接近它的最后次 
序而逐渐慢下来，因为相等的和接近相等的键码需要检查几个字才能确定适当的字典编辑次序 
(见习题5-5)。通常实践中出现的文件都包含接近相等的键码，所以这个现象对排序时间可能有 

重大的影响0 

试说明怎样推广算法 Q 以避免这个 困难； 在一个已知对于所有键码其前导的々个字都为常 

数值的子文件中，仅需检査键码的第 U + 1) 个字。 

► 31. [20] ( C . A . R . Hoare ) 假设不是对整个文件排序，而只要确定一个给 定的” 个元素集合 
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的第 m 个最小者。证明快速排序可修改成实现这一目的，以避免为进行一次完全排序所需要的 
许多计算。 

32. [ M 40 ] 给出利用习题31的“快速查找”方法寻找个元素的第 m 个最小者，所需要进行 
的平均键码比较次数_的简单的“封闭形式”的表达式（为简便起见，令 M = l ; 即，不假定使用 

有关短的子文件的一个特殊技术）。通过 Hoare 的方法求 2 m - 1个元素的中间值，所需要的平均 
比较次数卜的渐近特性 如何？ 

► 33.[15] 试设计一个算法，它重新排列一个给定表中的所有数，使得所有负数都在所有非负 
数之前（这些项不必完全排序，仅需分开负的和非负的）。你的算法应使用最小可能的交换次数。 

34. [20] 如何加快基数交换（在步骤 R 3 到 R 6 中）的位检査循环？ 

35. [ A /23] 分析频率 A ， B ， C , G , K ， HS 和 X 的值，它们是在利用“情况⑴的输人”的基 
数交换排序中出现的。 

36. [ M 27] 给定数的序列〈^〉=〜，~4 2 ，一，通过规则 




定义它的二项式转换〈心〉=心，心，心， …。 （ a ) 证明〈^〉=〈〜〉。 （ b ) 求序列 〈 l 〉；〈 n 〉 的二项式转 

换；对于固定的 m ，求( j 的二项式转换；对于固定的 a ，求〈 〆 〉的二项式转换；对于固定的 a 

\ \ m 1 1 

和 m ， 求 ) 的二项式转换。 （ C ) 假设序列〈工„〉满足关系 

\\m ! / 



x 


a 


n 


+ 2 1 



n 


k^2 


工 k 


\k 


对于 w > 2; x 0 


X 


a Q = ai = 0 



々>2 



2 k ~ l 






l n 


k^2 


\k 




<yk — \ 



31.1 M 28] 在习题 36 的意义下，确定所有使得〈心〉二〈〜〉的序列〈^〉。 

► 38.[ M 30] 当基数交换应用于“情况 （ ii ) 的输人”时，求 （29) 中诸量的平均值 A n 、 B n 、 
Kn 、 Rn 、 In 和 Xn 。 试借助 TV 和量 


Cn 、 Gn 、 


U 





表达你的答案[提 示： 见习题 36]。 

39. [20] (30) 中所示的结果指出，当应用基数交换排序于随机输人时，大约花费 1.44 N 个分 
划阶段。证明快速排序决不需要多于 iV 个 阶段； 并说明为什么基数交换往往需要这么多。 

40. [21] 说明怎样修改算法 R ， 使得它对包含许多相等键码的文件排序时，也以相当不错的 
效率进行工作。 

► 41.[30] 试设计对记录 R r . R r 进行交换的一个好方法，使得它们被分划成三个块区，且 ：（ i ) 
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对于对于 = 对于 j<k<r ， K k >K 0 图解之，最后的安 

排应是 

<K = K >K 

I i i r 


42. [HM32 ] 对于任何实数 c >0, 试证明当对随机数据进行排序时，算法 Q 将做多于 （c + 1) 
( N +1) H n 次比较的概率小于(当 c 比如说是 M 时，这个上限是特别有趣的）。 


43. [HM21 ] 


证明 



l)d^ + 



： y _1 e ” cl：y 






y [提示：考虑 y 1 ] 


44 . [ HM 24 ] 如正文中所建议的那样，推导（37)。 

AS .[ HM 20 ] 说明当 ： c > 0时，为什么 (43) 为真。 

46 . [ HM 20 ] 给定正整数 Sj 0 < a < i 问 （1/24) f ^°° r( 2 )rr z ck /(2〃 - 1) 的值是多少? 

‘丨 ■—— 


■ 

41.[HM21] 证明乏]是 n 的一个受限函数。 

4S.[HM24] 利用类似于正文中对的研究所使用方法，试求在习题 38 中定义的量的 

渐近值，求其诸项直到 0(1) 为止。 

49 . [HM24 ] 展开的渐近公式 (47) 直到 0U _1 )。 

50 . [HM24 ] 当 m 为任何大于 1 的固定数时，求函数 


U nin = XI 

k>2 




一 1 


的渐近值（当 m 为大于2的一个整数时，这个量出现于推广基数交换的研究中，以及 6.3 节的检 
索结构内存的查找算法中）。 

^ SI. [HM28] 证明解决渐近问题的伽玛函数可以用来代替欧拉求和公式，以推导 （35) 中的量 
r >( m ) 的渐近展开（这给了对所有々研究的一个统一的方法，而无须依赖于诸如正文中介 

绍的 g ^( x ) = ( e ^ 2 -1 )U 的技巧）。 

52. [NM35] ( N . G.de Bruijn ) 和数 



d ⑴ 


的渐近特性是什么？其中 dU ) 是〖的因子的个数（于是， d ( l ) = l ， d (2) = d (3)=2, d (4)=3, d (5) 
= 2,等等。这个问题的出现同分析一个树遍历算法有关，见习题2.3.1-11)。试求 S , y ( 2 j )&5 
值，到 OU — 1 ) 的项为止。 

53 . [HM42 ] 当输入数据由 [0..1) 中的无穷精度二进数组成，且它们的每位进位都独立地以 


概率 > 等于1时，试分析基数交换所执行的位检査和交换的平均次数（正文中仅仅讨论了 p = ^ 

的 情况； 我们所使用的方法可以推广到任意的/>)。特别是，考虑/> = 1/4= .61803 …的情况。 

54 . [HM24 ] (S.O.Rice) 证明 U„ 可被写成 


U 


n 




dz 


C z(z — 1) •** ( z — n ) 2 Z_1 — 1 
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其中 C 是包围点2,3,…， n 的小的封闭曲线。试把 C 变成以原点为中心的任意大的圆，推專出 
收敛级数 

~? 心 2~~ f + 2 + [^2 S 沉 ( B ( n + !， _ 1 + \bm)) 

rn^ 1 

其中，心二 2jc/ln 2,B(n + l, — 1 + i bm)) = T( n + l)r(— 1 十 imb)lT{ n ^ \bm ) = nil I I " (k 

ife = 0 

—1 + i bm ) 。 

► 55.[22] 说明应该如何修改程序 Q ， 使得分划的元素是3个键码 (28) 的中值。 

56. [ M 43] 当程序已经修改成如习题55中那样取3个元素的中值时，试分析出现于算法 Q 的 
运行时间中诸量的平均特性[参考习题29]。 


5.2.3 通过选择进行排序 

另一类重要的排序技术是以重复选择的思想为基础的。最简单的选择方法可 
能 如下： 

0求最小的 键码； 传送对应的记录到输出 区域； 然后以值“⑺”（假定它高于任何 
实际的键码）代替这个键码。 

ii ) 重复步骤0。这次将选出第二个最小的键码，因为最小的键码已为⑺所代 
替。 

Hi ) 继续重复步骤0直到已经选择了 N 个记录为止。 

一个选择方法要求在排序开始之前所有的输人项目均已出现，而且它顺序地逐 
个产生最后的输出。这实质上正好与插人法相反，在插人法中，输入被顺序地接收, 
但在完成排序之前并不知道任何最后的输出。 

每次选择出一个新记录时步骤 i ) 涉及 N -1 次比较，而且它在内存中也需要一 
个分幵的输出区域。但我们显然能做得更 好些； 通过把被选择的记录同当前占有此 
记录最后适当位置的那个记录进行交换，我们就可把被选择记录移动到它最后的适 
当位置，然后在将来的选择中我们就不必再考虑该位置了。因而我们也不需要考虑 
无穷键码。这个思想就产生了我们的头一个选择排序算法。 

算法 S (直接选择排序）适当重新安排记录…，在完成排序后，它们的 
键码将是有序的 K "< K N 。 排序是以上边指岀的方法为基础的，但改为首先选 

最大元素，紧接着选择第二个最大的，等等，这样做证明是更为方便的。 

S 1 •[对进行循环]对 j = A /, N - 1，…2执行步骤 S 2 和 S 3。 

S2 •[找 maxUi ， … ， K,)] 查一遍& ， \ …，以找出一极大者，设它为 

K 2 ，其中 z 尽可能地大。 

S 3 •[同巧进行交换]交换记录氏 ㈠ &(现在诸记录 R } ，…， R n 都处于它们的 

最后位置处）。 ■ 


表1示出了本算法应用于16个键码示例的 情况； 在自右至左的查找期间（步骤 
S 2) ，作为极大值被选出的元素以黑体标出。 
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表1直接选择排序 


503 

087 

512 

061 

908 

170 

897 

275 

653 

426 

154 

509 

612 

677 

765 

7031 

503 

087 

512 

061 

703 

170 

897 

275 

653 

426 

154 

509 

612 

677 

765| 

908 

503 

087 

512 

061 

703 

170 

765 

275 

653 

426 

154 

509 

612 

677丨 

897 

908 

503 

087 

512 

061 

703 

170 

677 

275 

653 

426 

154 

509 

612| 

765 

897 

908 

503 

087 

512 

061 

612 

170 

677 

275 

653 

426 

154 

509 1 

703 

765 

897 

908 

503 

^ M M 

087 

512 

061 

612 

170 

509 

275 

6531 

426 

154| 

677 

703 

765 

987 

908 

_ ■響 

0611 

087 

154 

170 

275 

426 

503 

509 

512 

612 

653 

677 

703 

765 

897 

908 


对应的 MIX 程序是十分简单的。 


程序 S (直接插入排序）同本章中以前的程序一样，单元 INPUT+ 1 到 INPUT + 
N 中的诸记录按一个全字长键码就地排序； rA ^ 当前极大值， rll 三 j - l ， rI 2 三々（当 
前査找的位置）， rI 3= f ，假定 N > 2 0 


01 

START 

ENT1 

N - 1 

02 

2H 

ENT2 

0,1 

03 


ENT3 

1,1 

04 


LDA 

INPUT,3 

05 

8H 

CMPA 

工 NPUT,2 

06 


JGE 

* + 3 

07 


ENT3 

0 f 2 

08 


LDA 

工 NP0T,3 

09 


DEC2 

1 

10 


J2P 

8B 

11 


LDX 

INPUT +1,1 

12 


STX 

INPUT, 3 

13 


STA 

INPUT +1,1 

14 


DEC1 

1 

15 


J1P 

2B 


1 S1 • 对 j 进行循环。 j^N 

N ~ 1 幻■找 … ， 0 。 k—j 一 I 

JV — 1 i—j 
N-l rA—Ki 
A 

A 如果则转换 
B 否则，置 i —々 

B rA^Kj 
A k—k — \ 

A 如果 A>0 , 重复 < 

N - 1 S3. M Rj 进行交换 

N ~ 1 Ri^Rj 
N-l R ; ^vA 
N-l 

N-l N>j>2 I 


这个程序的运行时间依赖于项目数 N ; 比较的次数 A ;以及“自右至左的极大 
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的改动次数 B 。 容易看出，不论输入键码的值为何，有 

(N 

A = 

V2 

因此仅仅 B 是可变的。尽管直接选择很简单，这个量 B 也是不易精确地分析的。 
习题3到6指出 



B = ( minO,ave (N + 1) H N - 2 N,max LN 2 /4 j ) (2) 

在这种情况下，极大值显得特别有趣。 B 的标准差有 iV 3/4 的阶，见习题7。 

于是程序 S 的平均运行时间是 2.5 iV 2 + 3 (N + l ) H N + 3.5； V - ll 个单位，它仅 

比直接插入(程序 5.2.1 S ) 稍慢些。把算法 S 同冒泡排序（算法 5.2.2 B ) 进行比较是 
有趣的，因为冒泡排序可以看做是一个选择算法，它有时一次选择出多于一个元素。 
由于这一原因，冒泡排序通常比直接选择要少做些比较，而且可能显得还优越 一些; 
但事实上，程序 5.2.2 B 比程序 S 慢两倍多！冒泡排序逊色的原因是它进行那么多 
的交换，而直接选择包含非常少的数据移动。 

直接选择的精化 有什么途径来改进用于算法 S 中的选择方法呢？例如，步骤 
S 2 中对于极大值的查找，是否有一个快得多的方法呢？对于后一个问题的回答是 
否定的！ 


引理 M 任何以比较元素对偶为基础的在 n 个元素中寻找极大者的算法，必 
须至少做 ^-1 次比较。 

证明 如果比较少于 n -1 次，则至少有两个元素，它们从未被发现是小于任何 
其它元素的。因此,就不会知道这两个元素中哪一个是较大的，从而也就不能确定 
极大者。 ■ 


于是，任何寻找最大元素的选择过程必须至少进行 n - 1 步； 因此我们可能会怀 
疑,所有以72次重复的选择为基础的排序方法，其步骤的阶数是否都注定为 H ( n 2 ) 
次运算？幸而，引理 M 仅适用于头一个选择步骤。随后的选择可以利用前面已获 
得的信息。例如，习题8和9指出，对算法 S 稍加改变就把平均次数削减了一半。 

考虑表1中的16 个数； 节省重复选择时间的一个方法是把它们看做4个四元 
组。我们可以从确定每个组的最大元素开始，这些最大元素的键码是 

512,908,653,765 

这4个元素的最大者是908,因而也是整个文件的最大者。为了获得第二个最大者， 
仅仅需要考虑512,653,715和包含908的组中其它3个 元素； 丨170,897,275 !中最 

大者是897,而且 
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的最大者是8970类似地，为了得到第三个最大的元素，先确定以 70 , 275 丨中的最大 
者，然后找 

512,275,653,765 

的最大者。在头一个之后的每一个选择，至多花费5个附加的比较。 一 般说来，如 

果 N 是一个完全平方，则可以把文件分 成为# 个#元组；在头一次选择之后，每 

个选择至多在以前选择了项目的组中花费 2 次比较，加上在“各组尖子”当中 

的 #-1 次比较。这一思想被称为二次选择；它的总共执行时间是 G(N #)，这 
比阶 N 2 要好得多。 

二次选择首先由 E . H . Friend 3 (1956) ，152〜 154] 提出，他指出同一思 
想可推广到三次、四次选择以及更高次的选择。例如，三次选择把文件划分成# 

个大组，每一大组包含个小组，每个小组包 含^^ 个 记录； 执行时间与 N /^成 
比例。如果把这个思想引到它最终的结论，则就得到了 Friend 所谓的以一个二叉树 
结构为基础的％次选 择”。 这个方法的执行时间与 NlogN 成比例，我们称它为树 

选择。 

树选择 借助典型的“淘汰赛”中的对垒，很容易理解树选择排序的原理。例 
如，考虑图22中兵兵球比赛的结果，在底层， Kim 战胜 Sandy ， Chris 战胜 Lou ; 然后 

在下一轮 ， Chris 战胜 Kim ，等等。 


Chris 



Chris 



Pat 


1 

Kim 

Chris 

Pat 

Robin 

Kim 

Sandy 

Chris 

Lou 

Pat 

Ray 

Dale 

Robin 


图 22 —场乒乓球锦标赛 

图22示出 Chris 是8个选手中的冠军，而且为确定这一事实要求 8-1 二 7次比 
赛/比较。 Pat 不一定是第二个最好的选手。被 Chris 打败的任何一个选手，包括头 

一轮的失利者 Lou ， 都可能是第二个最好者，可以通过 Lou 和 Kim 比赛，而这比赛的 
胜者同 Pat 比，来确定第二个最好的选手；由于我们已经从前几场比赛中记住了这 

个结构，为找出第二个最好的选手，只需要两场附加的比赛。 

一般说来，我们可以在树的根处“输出”选手，然后重新进行比赛，就好像该选手 

病了而未能发挥出最佳水平。于是原来第二个最好的选手就将升到根的位置；而且 
在树的上层重新计算胜者。为此目的只有一条通路必须改变。由此得出，为选择第 
二个最好的选手，只需要少于 rig N 1 次进一步的比较。同样的过程将找出第三个最 
好的，等等。因此，如同上面所断言的那样，对于这样一个选择排序，将大体上同 

NlogN 成比例。 
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图23示出对于我们的16个示例数字进行中的树形选择排序，注意为了知道在 
哪里插入下一个“，我们需要知道根处的键码来自何处。因此树的每个分支节 
点实际上应包含确定相关联的位置的一个指针或下标，而不是键码本身。由此得 
出，我们需要能存储 iV 个输入记录 、 N - 1个指针和个输出记录（或指向这些记 
录的指针）的存储空间（当然，如果输岀送到磁带或磁盘上，那我们就不需要在高速 
内存中保留输出记录）。 

读者应在此处暂时停下，而来做一做习题10,因为对于树选择基本原理的一个 
好的理解，将会更有助于评价我们即将讨论的一些重大改进。 

修改树选择的一个方法，实质上是由 K . E . Iverson [A Programming Lanuage 

(Wiley 1962).223 〜 227] 引进的。通过以下列方式的“向前看”就可以去掉对指针的 
需要，当在树的底层中比赛的优胜者被上移时，在底层处原来优胜者的值就立即以 
-%来 代替； 而且每当一个优胜者从一个分枝上移到另一个分枝时，它留下的位置 
即可由最终应当上移到此位置的那个值（即下面两个键码中的较大者）来代替。尽 
可能重复这个操作就把图 23( a ) 转换成图24。 

一旦以这种方式建立了树，我们就可以以“由顶向下”的方法，而不是图23中由 
底向上的方法，来进行排序。输出根，然后上移它最大的后商，然后再上移后者最大 
的后裔，等等。这个过程开始看起来不大像乒乓球的淘汰赛，而更像是团体选拔系 
统。 

读者应能看岀，这个由顶向下的方法有一个优点，即可以避免 - oo 和-⑺的多 
余比较（由底向上的方法在排序的稍后阶段将发现到处都是 - oo , 而由顶向下的方 
法则在每个阶段中存进一 个-〜 后便停止修改树）。 

图23和图24是具有16个终端结点 的完备二又树 （参见 2.3.4. 5小节），而且 
以图25所示的连续单元来表示这样一株树是方便的。 注意，号码为 k 的节点的父 
亲是节点 U /2」， 而它的儿子是节点2々和2々+ 1。这就导出了由顶向下方法的另一 
个优点，因为由顶向下从节点々到节点2々和 2 A +1，比起由底向上从节点々到节点 
々 ㊉ 1和 LW 2」 （这里 依据々 是偶数或奇数，々 ㊉ 1分别表示々+ 1或々- 1) 往往要更 
简便得多。 

至今树选择的例子都或多或少地假定了 N 是2 的一个 乘方; 但是实际上 iV 可 
以是任意的，因为很容易对任何的构造具有 N 个终端结点的完备二叉树。 

现在遇到了决定性的问题 ：能否 全然不使用-〜来实施由顶向下的方法？如果 
图24的重复信息全存在完备的二叉树单元1到16中，而不必包含-⑺的无用“空 
穴”，岂不是很好吗？稍经思索表明，的确可能达到这一目标，不仅仅是消去-〜，而 
且有可能对 iV 个记录就地排序，而无须使用任何辅助的输出区域。这是一个重要 
的排序算法，它的发现者 J . W . J . Williams 为之取名“堆排序 ” [CACM 7 (1964),347 
〜348]。 

堆排序 我们称键码 K' ， K 2 ，…， K n 的一个文件为一个“堆”，如果 

K ij/2j > K ; 对于 1 < b _/2 」 < j<N (3) 
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503 087 512 061 908 170 897 275 653 426 154 509 612 677 765 703 

( a ) 初始配置 
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503 087 512 061 -oo 


897 275 653 426 154 509 612 677 765 703 


( b ) 908 为一 oo 所代替，第二高的元素上移至根 


512 




512 



509 



503 

/\ 


512 

八 


170 

八 


275 

八 


426 

八 


509 

八 




503 087 512 061 -oo 170 -oo 275 -oo 426 154 509 -oo -oo -oo -oo 

( c ) 输出了 908, 897, 765, 703, 677, 653,和 612 之后的配置 


图23树选择排序的一个例子 



图24应用于排序的彼得原理，每个人在这个层次中都上升到他失败的层上 
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图25 •—株完备二叉树的顺序存储分配 


例如 等等； 这恰是在图 24 中成立的条件，而且，它意味 
着最大的键码出现在“堆的顶部” 

K x = maxO ^，]^ ，…， K n ) (4) 

如果能够设法把一个任意的输人文件转换成一个堆，则就可以使用一个如上所述的 
“由顶向下”的选择过程，来得到一个有效的排序算法。 

R.W.Folyd 提出了建立堆的有效方法 [CACM7 (1964),701 ]。 假定已经有能 
力来安排这个文件，使得 

^ L >/2 J > K X 对于 Z < b /2」 < j < iV (5) 

其中 Z 是某个 >1 的数(在原来的文件中，这个条件对于 Z = LiV /2」“ 空虚地”成立，因 
为不存在满足条件 LN /2」< b 72」< j < iV 的下标 P 。 不难看出应该怎样变换这个 
文件，使得 (5) 中的不等式可以推广到 L ; /2」= Z 的情况，使它在以节点 Z 为根的整个 
子树中都成立。因此可以将 Z 减1，直到最终达到条件 （ 3)。 Williams 和 Folyd 的这 
些思想导致了下面的新颖算法，值得仔细地研究。 

算法 H (堆排序）适当地重新安排记录…，只以在完成了排序之后，它们 

的键码将是有序的，首先，重新安排文件，使得它形成一个堆，然后 

反复地撤销堆顶，并把它传送到适当的最后位置。假定 N >2。 

HI •[初始化]置 Z — LN/2」+ l ， r — / V 。 

H2. [/ 或厂减值]如果 Z>1, 则置 1 — 1 - 1, 尺 — K z ( 如果 Z>1, 则处于 

把输人文件变换为一个堆的过 程中； 如果 Z = l , 则键码 1 ^ 1 < 2 … K r 已组成 
一个堆）。否则，置尺 — 义，尺—以及 r — r -1; 如果这使得 r 
=1，则置只，并且终止这个算法。 

H3. [准备“筛选”]置 j — 〆 这时，对于 r <々< N , 我们有 

K Vjjl] >K } 对于 l<lk/2i<k<r (6) 

而且 记录^ 处于它最后的位置。步骤 H3-H8 称为“筛选” 算法； 它们的 
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效果等价于置 R^R 然后重新安排…，使得条件 （6) 对于 i = lkl 
2」也成立。） 

H4 •[向下进行]置 z— j 和）— 2)( 在下列步骤中，我们有 f = b72 」）。 如果 

r , 则一直前进到步骤 H 5; 如果 j == r ， 则转到步骤 H 6; 如果 J /‘ > r , 则转到 

H8 0 

H5 •[找“较大的”儿子]如果 + 1 ，则置 7 —J + 1。 

H6 .[大于 K ?] 如果则转到步骤 H 8。 

H7 •[上移它]置尺―巧，并返转到步骤 H 4。 

H 8 •[存储尺]置 民—尺 （这终止了起始于步骤 H 3 的“筛选”算法）。返回到步 

骤 H 2。 ■ 

由于/和 r 的运动，堆排序有时被描述作算法。上三角形表示当 r 二 N 且 
I 减小到1时堆的建立阶段，而下三角形表示当 / = 1 且 r 减小到1时的选择阶段。 
表2示出了对16个示例数字的堆排序过程（表中的每行示出在步骤 H 2 之后的状 
态，方括号表示位置/和 r )。 



图26堆排序，虚线包括的是“筛选”算法 

表 2 堆排序示例 
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16 
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[908 

612 
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703 
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677 

765 275 ] 
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16 
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_ (续） 

K 2 k 3 k 4 k s k 6 k 7 k 8 k 9 k 10 K n k 12 k 13 k 14 k 15 k 16 l r 

503 087 512 [703 908 612 897 275 653 426 154 509 170 677 765 061]4 16 

154 509 170 677 512 061]3 16 


503 

087 

[897 

703 

908 

503 [908 

897 

703 

426 

[908 

703 

897 

653 

426 

[897 

703 

765 

653 

426 

[765 

703 

677 

653 

426 

[703 

653 

677 

503 

426 

[677 

653 

612 

503 

426 

[653 

503 

612 

275 

426 

[612 

503 
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275 

426 

[512 

503 

509 

275 

426 

[509 

503 

154 

275 

426 

[503 

426 

154 

275 

170 

[426 

275 

154 

061 

170 

[275 

170 

154 

061 

087] 

[170 

087 

154 

061] 

275 

[154 

087 

061] 

170 

275 

[087 

061] 

154 

170 

275 


612 

765 

275 

653 

426 

612 

765 

275 

653 

087 

612 

765 

275 

503 

087 

612 

677 

275 

503 

087 

612 

512 

275 

503 

087 

612 
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275 

061 

087 

509 

512 

275 

061 

087 

509 

512 

170 

061 

087 

509 

154 

170 

061 

087] 

087 

154 

170 

061] 

612 

087 

061 

170] 

512 
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087 

061] 

509 

512 

612 

087] 

503 
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512 
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426 
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509 

512 
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509 

512 
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426 

503 

509 

512 

612 

426 

503 

509 

512 

612 


154 
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170 

677 

512 

061 ]2 

16 

154 

509 

170 

677 

512 

061 ]1 

16 

154 

509 

170 

061 

512]908 

1 

15 

154 

509 

170 

061]897 

908 

1 

14 

154 

509 

170]765 

897 

908 

1 

13 

154 

170]703 

765 

897 

908 

1 

12 

154] 677 

703 

765 

897 

908 

1 

11 

653 

677 

703 

765 

897 

908 

1 

10 

653 

677 

703 

765 

897 

908 

1 

9 

653 

677 

703 

765 

897 

908 

1 

8 

653 

677 

703 

765 

897 

908 

1 

7 

653 

677 

703 

765 

897 

908 

1 

6 

653 

677 

703 

765 

897 

908 

1 

5 

653 

677 

703 

765 

897 

908 

1 

4 

653 

677 

703 

765 

897 

908 

1 

3 

653 

677 

703 

765 

897 

908 

1 

2 


程序 H (堆排序）通过算法对单元 INPUT+ 1 到 INPUT + N 的诸记录进行排 
序，并对寄存器赋值如下： rll 三/ - 1 ， rI 2= r - 1 , rI 3^ 2 , rl 4 =j , rI 5= r - j , rA = K 
=R ， rX=i ^。 


01 

START 

ENT1 

N/2 

i 

02 


ENT2 

N- 1 

i 

03 

1H 

DEC1 

1 

LN/2J 

04 


LDA 

INPUT +1,1 

LN/2J 

05 

3H 

ENT4 

1,1 

P 

06 


ENT5 

0,2 

P 

07 


DEC5 

0,1 

P 

08 


JMP 

4F 

P 

09 

5H 

LDX 

工 NPUT,4 

B + A - D 

10 


CMPX 

工 NPUT+ 1,4 

B + A— D 

11 


JGE 

6F 

B+A-D 

12 


INC4 

1 

C 

13 


DEC5 

1 

c 


HI. 初始化 o /— LN / 2 」+ l 

r^N 
l — l-l 

R ^~ R lf K ^ K I 
H 3 . 准备“筛选”。 j—l 


rI5 一 r — j 

转 H 4 

H 5. 找“较大的”儿子 

如果&>斤 + 1 则转移 
否则，置 j — 7 + 1 
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14 

9H 

LDX 

INPUT， 4 

C + D 

15 

6H 

CMPA 

INPUT , 4 

B +A 

16 


JGE 

8F 

B + A 

17 

7H 

STX 

INPUT, 3 

B 

18 

4H 

ENT3 

0,4 

B + P 

19 


DEC5 

0,4 

B + P 

20 


工 NC4 

0,4 

B + P 

21 


J5P 

5B 

B + P 

22 


J5Z 

9B 

P-A + D 

23 

8H 

STA 

工 NPUT ，3 

P 

24 

2H 

JIP 

IB 

P 

25 


LDA 

INPUT 十 1,2 

N-i 

26 


LDX 

INPUT 十 1 

N~\ 

27 


STX 

INPUT+ 1,2 

N-l 

28 


DEC2 

1 

N- 1 

29 


J2P 

3B 

N-l 

30 


STA 

INPUT+ 1 

1 


H 6. 大于 K ? 

如果10%,则转到 H 8 

H 7. 上移它。 R ^ R , 

H 4. 向下进行。 i—j 
rI 5— rI 5 - j 

j—J + j 

如果 _；</*, 则转到 H 5 
如果 j = r , 则转到 H 6 
H 8. 存储 R 0 R 广 R 

H 2 J 或 r 减值 

如果 / 二 1,则置 R ^ R rt K ^~ K r 

尺 r — 尺1 
r - 1 

如果 r > l , 则转到 H 3 

R 广 R I 


尽管这个程序的长度大约仅是程序 S 的两倍，但当 N 很大时，它更为有效。它 
的运行时间依赖于 

P = N + LN /2」-2, 筛选扫描的 次数； 

A 使键码 K 最终固定在堆的一个内部节点上的筛选扫描 次数； 

B 在筛选期间被提升的键码 总数； 

C 步骤 H 5 中 7—7 + 1 的次数； 

D 步骤 H 4 中 j = r 的次数。 

这些量将在下面进行分析。实际上，它们围绕其平均值的波动相当小 


A ^0.349 N , jB ^ NlgN - 1.87 N 
C ^ j-NlgN - 0.9 N,D ^ InN 


(7) 


例如，当 N = 1000 时，对于随机输入的4项实验分别给出 A =371,351,341,340 ；E 
= 8055,8072,8094,8108; C = 4056，4087,4017,4083； D = 12,14,8,13 0 因此，总运 
行时间 7 A 十 14 B + 4 C + 20 N - 2 D + 15 LN /2 J - 28,平均说来近似于 16 NlgN + 
0.01 N 个单位。 

根据表2我们很难相信，堆排序是非常有 效的； 在把大的键码藏匿在右边之前 
左移之！当 N 很小时，它确实是不可思议的排序 方法； 表2中16个键码的排序时 
间是 1068 W ， 而简单的直接插人法（程序 5.2.1 S ) 仅花费 514 Wo 直接选择法（程序 
S ) 花费 853 w 。 

对于较大的 N ， 程序 H 更为有效。由于程序 H 、 Shell 排序（程序 5.2.1 D ) 和快 
速排序（程序 5.2.2 Q ) 这3个程序都通过键码的比较进行排序，而且较少或不用辅 
助存诸，当 N - 1000时，在 MIX 上近似的平均运行时间是 (MIX 是典型的计算机，但 
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特殊的机器当然会产生稍微不同的相对数值） 

堆排序 160000 w 

Shell 排序 130000 m 

快速呼序 80000 ^ 

当〜变¥更大时，堆排序将优于 Shell 排序，但它的渐近运行时间 16 Nlg N 〜 
23.08 Nlri iV 将决不超过快速排序的 11.67 iVl n iV 。 习题18中所讨论的对堆排序的 
修改，将提高在许多计算机上的处理速度，但即使经过改进也仍然赶不上快速排序。 

另一方面，快速排序仅仅是平均有效的，它的最坏情况达到 N 2 阶。而堆排序 
则具有有趣的性质，即它的最坏情况并不比平均情况坏多少，我们总有 

A < 1.5 N , B < NLlgNj , C < iVUgiV 」 （8) 

所以不论输入数据的分布如何，程序 H 花费的时间单位将不多于 18 iVLlgN 」 十 
38 N 。 堆排序是已见的第一个保证具有 NlgiV 阶的排序方法。下面 5.2.4 小节中 
讨论的合并排序也有这个性质,但它要求较多的存储空间。 

最大者先出 在第二章中我们已经看到，线性表通常可以按照对其所实施的插 
入和删除操作的特性，合理地划分为不同的类型。插入和删除操作使这些线性表增 
长和缩小，在每次删除都是撤销表中最年轻的项目这一意义下，一个栈有“后进先 
出”的特性。所谓最年轻的项目是指在所有当前存在的项目中最新插入的项目。而 
一个简单的队，在每次删除都是撤销剩下的最老的项目这一意义下，则有“先进先 
岀”的特性。在更复杂的情况下，例如 2.2.5 小节的电梯模拟，需要一个“最小者先 
出”表，其中每次删除都是撤销有最小键码的项目。这样一个表可以称为一 个优先 
队列，因为每个项目的键码反映了它迅速离开这个表的相对能力。选择排序是优先 
队列的特殊情况，其中我们在做了 N 次插入之后，接着做 N 次删除。 

优先队列有广泛的应用。例如，某些数值迭代方案是以重复选择符合某项测试 
准则的最大（或最小)值的项目为基础的。选中的项目的参数被改变，并根据参数的 
新值，按新的测试值重新插入到表中。操作系统通常利用优先队列进行作业调度。 
习题15、29和36提出了优先队列其它典型的应用。在后面数章中将岀现许多其它 
的例子。 

应如何实现优先队列呢？显然的方法之一是维持一个排好序的表，其中按键码 
的次序排列诸项目。于是，插入一个新项目实质上就是我们在 5.2.1 小节插入排序 
的研究中所讨论的同样问题。另一个处理优先队列的甚至更为显然的方法，是以任 
意次序保持元素表，每当需要删除具有最大（或最小）键码的元素时，就把这个元素 
找出来。这两个显然的方法，麻烦都在于 ：当在 表中有 N 项时，插入或删除要求 
n ( N ) 步。所以当 N 很大时，它们是非常消耗时间的。 

Williams 在关于堆排序的开创性论文中指出，把堆应用于大的优先队列是很理 
想的，因为我们可以在 O ( logiV ) 步中向一个堆插入或从一个堆删除 元素； 而且，堆 
的所有元素都紧凑地放置在连续的存储单元中。算法 H 的选择阶段是一系列按最 
大者先出过 程的删除步骤 ：为删 除最大的元素 Ki ，我们撤销它，并“筛选”出 
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入 N - 1 个元素的新堆中（如果如同在电梯模拟中那样要一个最小者先出算法，则 
显然可以改变堆的定义，使得在 （3) 中“>”变成为“<为了方便起见，在这里只考 
虑最大者先出的情况）。 一 般地说，如果要删除最大的项目，然后插入一个^的元素 
: c ， 则可以以/二 l，r = N ， 和 K = x 来进行筛选过程。如果希望插入一个元素工，而 

无须预先删除堆中的元素，则可以使用习题16的“由底向上”的过程。 

优先队列的一个链接表示 把优先队列表示为链接二叉树的一个有效方法是 

1971 年由 （Clark A . Crane 发现的 Technical Report SATN - CS -72 259 (Computer Sci ¬ 
ence Department,Stanford University 1972]。 他的方法要求在每个记录中有两个链 

接字段和一个小的计数，比起堆来它有下列优点： 

i ) 当优先队列被处理为^个栈时，插入和删除操作花费的时间是固定的，与队 

列大小无关。 

ii ) 这些记录决不移动，仅仅改变指针。 

iii ) 仅在 O ( logN ) 步之内就能容易地把总共有 N 个元素的两个不相交的优先 
队列合并成一个优先队列。 

稍经修改后的 Crane 的开创性方法如图27所示，它展示了一个特殊类型的二 
叉树结构。每个节点包含一个 KEY (键码）字段，一个 DIST (距离）字段，以及两个链 
接字段 LEFT (左）和 RIGHT (右）。 DIST 字段的值总是等于从该节点到空链接 A 的最 
短通路长度。换句话说，它是从该节点到最接近的空子树的距离。如果定义 DIST 
(八 ） = 0和 KEY ( A ) = - oo ，则在这株树中的 KEY 和 DIST 字段满足下列 性质： 

KEY ( P ) > KEY ( LEFT ( P )), KEY ( P ) > KEY ( RIGHT ( P ) ) (9) 

DIST ( P ) = 1 + min ( DIST ( LEFT ( P )), DIST ( RIGHT ( P ))) (10) 

DIST ( LEFT ( P )) > DIST ( RIGHT ( P )) (11) 

关系 （9) 类似于堆的条件 （3)， 它确保树根有最大的 键码； 而关系 （10) 恰是上面所述 
的 DIST 字段的定义。关系 （11) 是有趣的新方法：它意味着到 A 的最短通路总可以 
通过向右移动而得到。我们说，具有这种性质的树是一个 左倾树 ，因为它具有如此 

强烈地倾向于左边的趋势。 

由这些定义，显然， DIST ( P ) = n 意味着在 P 下面至少存在 2 71 个空 子树； 否则， 
将有一条更短的通路从 P 通到 A 。 于是，如果在一个左倾树中有 N 个节点，则从根 
向下往右边走的通路至多包含 Llg(N + l )」 个节点。通过遍历这一通路，就可能把一 
个新点插入到优先队列中（见习题 33) ;因此，在最坏情况下仅仅需要 O ( bgN ) 步。 
当树是线性的时（所有 RIGHT 链接都是 A ) 出现最好的情况，而当树完全平衡时出现 

最坏的情况。 

为了撤销在根处的节点，我们只需合并它的两株子树。合并两个分别由 P 和！3 
所指向的不相交的左倾树的操作，从概念上说是简单的：如果 KEY ( P )> KEY ( Q )， 则把 
P 取作根，把 Q 同 P 的右子树 合并； 然后修改 DIST ( P )， 必要时互换 LEFT ( P ) 与 RIGHT 

( P)o 这一过程的详细描述是不难想出来的（见习题 33)。 

优先队列技术的比较 当节点的数目 N 很小时，最好使用一种直截了当的线 
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图27表示为一株左倾树的优先队列 

性表方法，来维持一个优先 队列； 但当 N 很大时，使用堆或左倾树的 logN 的方法显 
然快得多。在 6.2.3 小节，将讨论把线性表表示为 平衡树 的问题，而这就导致了适 
合于优先队列的实现的第三个 b g N 方法。因此对这三项技术做一比较是适当的。 

已经看岀，左倾树操作一般比堆操作稍微快些，但堆花费的存储空间较少，因为 
堆没有链接字段。平衡树大约花费和左倾树同样多的空间，也许稍微 少些； 其操作 
比堆慢些，而且程序设计更复杂，但平衡树结构在某些方面要灵活得多。当使用一 
个堆或一株左倾树时，我们不易预测，对于具有相等键码的两个项目将发生 什么； 不 
可能保证，具有相等键码的项目将以后进先出或先进先出的方式被处理，除非把键 
码扩展成包括附加的“插入的顺序编号”字段，使得实际上不出现相等的键码。另一 
方面，通过平衡树，能容易地做出关于相等键码的一致的约定，并且也能做诸如“在 
y 之前(或之后）直接插人 x ” 等操作。平衡树是对称的，以致能在任何时刻删除最 
大的元素或者最小的元素，而堆和左倾树必然倾向于这边或那边（习题31将说明怎 
样构造对称的堆）。平衡树既可用作査找，也可用作 排序； 而且，能颇为快速地从一 
株平衡树撤销连续的元素块区。但是一般说来，为合并两株平衡树需要步， 
而左倾树的合并仅需 0 (log N ) 步。 

总之，堆使用极小的 存储; 左倾树对于合并不相交的优先队列是很 好的； 而如有 
必要，可以合理的代价利用平衡树的灵活性。 
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^自上文所讨论的 Williams 和 Crane 的开创性工作以来，出现了许多表示优 

先队列的新方法，除了简单的表、堆、左倾树或平衡树之外，现在程序员有大量的选 


项可供考虑： 

•分层的树，当所有的键码位于一个给定的范围 0< K < M 时，它提供仅需 0 

( loglogM ) 步的对称优先队列操作 （ P.van Emde Boas ， R.Kaas 和 E . Zijlstra , 


Math . Systems Theory 10(1977)，99 〜 127_ 
二项式队列 [J . Vuillemin,CACM 12( 1978),309 




315 ; M • R . Brown , SI COMP 


7(1978),298-319]; 

•宝塔式 [ J . Francon , G . Viennot 和 J . Vuillemin ,FOCS 19 (1978) ， 1 〜 7]; 

•成对堆 [ M • L . Fredman ， R ■ Sedgewick ， D . D • Sleator 和 R . E ‘ Tarjan Algorithmi - 

ca 1(1986) ， 111 〜 129; J . T.Stako 和 J . S . Vitter CACM , 30(1987) ,234 〜 


249]； 

•斜堆 [ D • D.Sleator 和 R • E • Tarjan ，SICOMP 15(1986),52-59]; 

•斐波那契堆 [ M . L.Fredman 和 R . E . Tarjan JA CM 34 (1987), 5% 〜 615 ] 以及 

更一般的 AF - 堆 [ M . L.Fredman 和 D . E . WillardJ . Computer and sys tern 

Sci . 48 (1994),533-551]； 

• 日历队列 [ R . Brown，CACM 31 (1988), 1220 - 1227 ； G . A . Davison , CACM 32 
(1989),1241 〜 1243]; 

•放松堆 [ J . R . DHscoll ， H . N • Gabow ， R _ Shrairman 和 R . E.Tarjan , CACM 31 


(1988),1343-1354； 

•鱼叉 [ M . J.Fischer 和 M . S.Patersxon JACM 41(1994) ,3-30]; 

•热队列 [ B . V . Cherkassky ， A . V . Goldberg 和 C . Silverstein,SODA 8(1997),83 

〜 92]; 


并非所有这些方法都经得起时间的考验；左倾树实际上已经过时，除非应用程 
序具有很强的面向后进先出特性的趋势。有关二项式队和斐波那契堆的详细实现 

和解释，可参见 D . E . Knut / i . The Stanford GraphBase (New York ： ACM Press , 1994) 

.475 〜489。 

，堆 排序的分析算法 H 是相当复杂的，所以它有可能永远也不会有一个完备 
的数学分析，但是推导它的若干性质并不会有很大困难。因此，我们将通过稍微详 
细地研究一个堆的构造来结束本小节。 

图28所示为具有26个元素的一个堆的 形状； 每个节点都已根据它在此堆中的 
下标用二进制数标出。图中的星号表示所谓的特 殊节点 ，它位于从1到 N 的通路 


堆最重要的属性之一是它的子树大小的集合。例如，在图28中以1，2,…，26 
为根的子树的大小分别是 
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26* ,15，1 (T ,7,7,6" ,3,3,3,3, 

3,3,2" ，1，1,1，1，1，1，1，1，1，1，1，1,” （12) 

星号表示以特殊节点为根的特殊 子树； 习题20说明，如果 iV 的二进表示是 

N = ( b ri b„-i … b ' b 0 ) 2 ，n = LlgN 」 (13) 

则特殊子树的大小总是 

(1\_ 1 “‘6 1 6 0 ) 2 ，（1^- 2 〜6 1 6 0 ) 2 ，."，（1办 1 办 0 )2，（16 0 ) 2 ，（1) 2 (14) 

非特殊的子树总是完全平衡的，所以它们的大小总是形如/ - 1。习题21说明非特 
殊子树的大小恰由 


N - 1 
2 


个1， 


N 


2 


4 


个3, 


N - 4 



个7, 


■參 * 


N - 2 


-1 


2 " 


个 (2” - 1) (15) 


所组成。例如，图28含有12株大小为1，6株大小为3,2株大小为7和1株大小为 
15的非特殊子树。 



图28 —个26= (11010) 2 个元素的堆的图示 

设是其根为 Z 的子树的大小 ， m n 是所有这些大小的多重集合，…, 
5 N | o 利用 （14) 和（15)，对于任何给定的 N ， 可以容易地计算出 M n 。 习题 5.1.4-20 

告诉我们，把整数 U ，2, …，排列成一个堆的方式总数是 

參 

N \ lS02 ". s N = N !/][J I s I S ( M N I (16) 

例如，放置 26 个字母 I A ， B , C , …， Z ! 到图 28 中，使得竖线保持字母顺序，其方式个 
数为 

261/(26 • 10 • 6 • 2 • 1 • I 12 • 3 6 . 7 2 . 15 1 ) 

我们现在可以来分析算法 H 中的堆建立阶段，即在步骤 H 2 中出现条件 1 = 1 
之前的阶段。幸而，可以把对堆建立的研究归结为对独立的筛选操作的研究，这是 
由下面的定理导岀的。 


定理 H 如果把算法 H 应用于11,2,…， N 丨的一个随机排列上，则在堆建立阶 
段， N ! / nUI ^ M N i 个可能的堆中，每一个都具有同样的可能性。而且在这个阶 
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段实施的 LiV /2」 个筛选操作的每一个，在下列意义下是一致的，即当达到步骤 H 8 
时， z 的& 个可能的值中，每一个都是同等可能的。 

证明可以应用数值分析家们也许称之为“向后分析”的方法，来证明定理 H 。 
给定以 Z 为根的筛选操作的一个可能结果，我们看到，恰有这个文件的〜 

个以前的配置将筛选岀此结果。这些以前配置的每一个都有不同的 K ; 

值； 因此向后看去，恰有 U ，2, …， N 1 的 s [Sl + l ." s N 个输入排列，在位置/的筛选完成 

之后，它们产生配置 K ' … K n 。 

情况 Z = 1 是典型 的：设 K r ，. K N 是一个堆，是一个文件，当 l = l，K 
= K \ 时，该文件通过筛选操作变换成如果 K = K ;， 则必定有 二 
〜, 72 」，尺\ 2/2 」=]^, /4 」，等等，而对于不在从1到^的通路上的所有6 = 〜。反 
之，对于每个 z ，这个构造产生一个文件，使得 ：（ a ) 筛选操作把 JT r " K N 变 
换成 Kr “ K N ; ( b ) 对于 2< L )/2」< j < iV ， K u /2 」> J ^。 因此，恰能有 iV 个这样的文 
件… K N ，而且筛选操作是均匀的（这个定理证明的一个例子见习题22)。 I 

参照程序 H 的分析中的量 A ， B ， C ， D ， 可以看到，在大小为 s 的一株子树上的 
均匀筛选操作，对 A 的平均值的贡献是 Ls /2」/ q 对 B 的平均值的贡献是 

1 1 S 

— (o + 1 + i + 2+ … +Llg5j) = — (2Llg 是 」）= 

s s k = i 

丄 ((5 + l)Llg5j - 2 llg5j+I + 2) 

5 

(见习题 1.2.4-42); 而且根据 5 是偶数还是奇数，它对 D 的平均值的贡献是 2/ s 或 
0。对 C 的相应的贡献更难确定些，所以把它留给读者（见习题26)。对于所有筛选 
操作进行求和，我们求出在堆建立期间 A 的平均值是 

A’n = 2 1 L ^/2 j /5 I 5 ( M n I (17) 

对于 B 、 C 和 D ， 类似的公式也成立。因此不难精确地计算这些平 均值； 下表给出了 


典型的 结果： 

N 

An 

b n 


d' n 

99 

19.18 

68.35 

42.95 

0.00 

100 

19.93 

69.39 

42.71 

1.84 

999 

196.16 

734.66 

464.53 

0.00 

1000 

196.94 

735.80 

464.16 

1.92 

9999 

1966.02 

7428.18 

4695.54 

0.00 
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10000 

1966.82 

7429.39 

4695•06 

1.97 

10001 

1966.45 

7430.07 

4695.84 

0.00 

10002 

1967-15 

7430.97 

4695.95 

1.73 


从渐近的意义上说，可以忽略 M n 中特殊子树的大小，例如可以求出 


A N 二 f.j + f • + 十 f •+十…+ O ( logN ) 




(18) 


1 - ya N + Odog N ) 


其中 


a 


2 A 

k >\ ^ —丄 




1.60669 51524 15291 76378 33015 23190 92458 04805 - 


(19) 

(这个值已由 J . W . W renc h ， Jr . 用习题27的级数变换计算出来 。 Paul Erdos 已经证 


明 a 是一个无理数 L /，Indian Math . Soc . 12 ( 1948) ，63 




66 ] ，以及 Peter 已 


经证明许多类似常数的无理性 . Comb . Phil . Soc . 112(1992) , 141 
很大的 N ， 可以使用近似公式 
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对于 


A ； v ^ 0.1967 N 



(- 1) n 0.3 


0.74403 N - 1.31 nN 

C / n ^0 A 1034 N - 0.81 nN (20) 

(1.8 ±0.2 )[N 偶] 

极小值和极大值也容易确定。为建立这个堆，只需要 O ( N ) 步（参见习题23)。 

这个理论漂亮地说明了算法 H 的堆建立阶段。但选择阶段是另一回事，它尚 
有待写岀！当对 N 个元素进行堆排序时，4〃，矿，0〃和0"表示在选择阶段义，召，0 
和 D 的平均值。对于随机输入，算法 H 的特性受到经验确定的下列平均值，相对小 
的波动的支配 


A " n 〜0.152 N 


B〃 n 〜N \g N - 2.61 N 


C " N 〜 



N lg N - 1.41 N 


( 21 ) 


D " N 《 lg N ± 2 


但是对于 D 


// 

N 


的特性或对于猜测的常数 0.152、2.61 或1.41，都还未找到适当的理 


论解释。然而，和 C ; 的前导项已由 R . Schaffer 和 R . Sedgerwick 以 一 种非常好 
的方式确 立了； 参见习题30。 Schaffer 还证明了 C ;, 可能的极小值和极大值，分别渐 


近于 jN lg N 和 lg N 0 
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习题 

1. [10]直接选择（算法 S ) 是一个稳定的排序方法吗？ 

2. [15] 为什么在算法 S 中，选择最大的键码，然后次最大的键码，等 等； 而不是首先找最小 

的，然后找次小的，等等，证明前者是更为方便的。 

3. [ M 2 J ] (a) 证明，如果算法 S 的输人是 il ，2, …，的一个随机排列，则步骤 S 2 和 S 3 的第 

一 次迭代产生以 iV 结尾的 II ，2,…，11的一个随机排列（换句话说，在 

7 V -11 的每一个排列的存在都是同等可能的）。 （ b ) 因此如果表示程序 S 中量 B 的平均值，给 
定随机排列的输人，则我们有 B N = H N - 1+ [提 示：参 见等式1.2.10-(16)]。 

► 4.[ M 25] 当； 时箅法 S 的步骤 S 3 什么也 不做； 在进行步骤 S 3 之前测试是否 i = j 是一个 
好想法吗？对于随机输入，在步骤 S 3 中条件 i = j 出现的平均次数是多少？ 

5. [20] 当输人是 N …3 2 1时，在程序 S 的分析中量 B 的值是什么？ 

6. [ M 29] ( a ) 设 qa 2 …叫是 11，2,…， Nl 的一个排列，它有 C 个循环和/个反序，以及当由 

程序 S 进行排序时有 B 个自右到左的极大值变化。证明十 / V - C [提 示： 见习题 5.2.2-1]。 
( b ) 证明7 + N - C < L / V 2 /2」， 因此 B 决不能超过 LiV 2 /4」。 

I . [ M 4 l ] 假定随机输人，试求作为 N 的一个函数的程序 S 中量 B 的方差。 

► 8 . [24 ] 证明，如果在步骤 S 2 中査找 max ( K " i ，…，\ ) 时，按自左到右的次序 X L , K " 2 , *** , 

来考察键码，而不是像在程序 s 中那样按的次序来考察，则通常情况下，有可能减 

少步骤 S 2 的下一次迭代所需要的比较次数。试根据这个想法，写出一个 MIX 程序。 

9. [ M 25] 对于随机输人，由习题8的算法执行比较的平均次数是多少？ 

10. [12] 在原来的16个项目中的14项已被输出之后，图23中树的配置将是怎样的？ 

II. [70] 在元素908被输出之后，图24的树的配置将如何？ 

12. [ M 20] 当使用图23的“由底向上”方法把2〃 个元素的一个文件排成有序时， - oo 同 - oo 
将比较多少次？ 

13. [20] ( J . W . J . Williams ) 算法 H 的步骤 H 4 区分 rj 二 r 和> r 3 种情况。证明，如果 
,，则将有可能简化步骤 H 4, 从而只需做一个两路分支。问应怎样修改步骤 H 2, 才能确保 

的条件贯穿于堆排序过程？ 

14. [10] 证明简单队列是优先队列的特殊情况（说明如何把键码赋予诸元素，使得最大者先 
出的过程等价于先进先出）。一个栈也是优先队列的一种特殊情况吗？ 

15. [ M 22] ( B . A . Chartres ) 设计一个高速算法，它构造一张 < N 的素数的表，并利用一个优 
先队列来 避免除法操作[提示 ：令优 先队列中最小的键码，是比上一个作为素数候选者的奇数要 

大的最小非素奇数。试使队中元素个数极少]。 

16. [20] 设计一个有效的算法，它把一个新的键码插人到《个元素的一个给定的堆中，产生 

rz + 1个兀素的一^个堆。 

17. [20] 习题16的算法可代替算法 H 中“减小 Z 到1”的方法，以用来建立堆。当它们以相 

同的输人文件开始时，这两个方法是否建立相同的堆？ 

► 18. [2 i ] ( R . W . Floyd ) 在堆排序的选择阶段，键码 K 势必是十分小的，所以步骤 H 6 中几乎 

所有的比较都发现说明如何修改这个算法，使得在计算的主循环中 K 不同\进行比 
较，从而把比较的平均次数削减一半。 

19. [2]] 试设计一个算法，它删去长度为 N 的堆中一个给定的元素，产生长度为 N - 1的一 
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个堆。 

20 . [ M 20 ] 证明 （14) 给出一个堆中的特殊子树的大小。 

21. [ M 24] 证明 （15) 给岀一个堆中的非特殊子树的大小。 

► 22. [20] 在算法 H 的堆建立阶段，11，2,3,4,5|的什么排列变换成534 12? 


23 . [ M 28 ] ( a ) 证明在一个筛选算法中扫描的长度召决不超过 Ug ( WZ )」。（ b ) 根据（8)，在算 
法 H 的任何具体应用中， B 决不能超过 NLlgN 」。 在所有可能的输入文件中，试求 B 作为 N 的一 
个函数的极大值（你必须证明，存在一个输入文件，使 B 取到这个极大值）。 

24 . [ M 24 ] 推导出 (算法 H 的堆建立阶段的扫描总长度）的标准差的精确公式。 

25 . [ M 20 ] 当/ = 1和 r = N 时，如果 iV = 2” + 1 - 1，则在筛选扫描期间对 C 贡献的平均值是 
多少？ 


26 . [ M 30 ] 求解习题 25，（ a ) 对于 TV = 26， （ b 〉 对于一般的 iV 

27 . [ M 25 ] ( T . Clausen ，1828) 证明 



W ^ 1 




(置 x = m 即得一个用于计算 （19) 的非常快速地收敛的级数〉。 

28.[35] 以完备的三叉树而不是二叉树为基础，来剖析三叉堆的思想。三叉堆排序比二叉堆 


更快吗？ 

29 . [26 ] W . S . Brown 设计 一 个用于多项式或幕级数的乘法 （ ap 、 + + … ）（6!:^ + 


6 2 / 2 +…）的算法，其中，答案…的系数按照输入系数相乘的次序来生成[提 示： 使用一 


个适当的优先队列]。 

► 30 . [ HM 35 ] ( R.Schaffer fP R . Sedgewick ) 设 是元素 11，2 ,…， n | 的堆的个数，对于它们 
来说，堆排序的选择阶段恰好进行 m 次的增进。试证明々，并且使用这个关系来 

证明，由算法 H 所实施的增进的平均次数是 N \ gN +0 (N log log N ) 0 

31. [37] ( J . W . J . Williams ) 试证明，如果把两个堆以适当方式“背对背”地放在一起，则有可 
能维持这样一种结构，其中，在任何时刻都能在 O ( bgiV ) 步之内删除最小的或者最大的元素（这 
样 一 个结构可以叫做 一 个 优先双队）。 


32 . [ M 28 ] 如果被排序的键码都不同，试证明，堆排序的增进的个数 B ， 总是至少为 j / Vlg/V 


+ 0( N ) 0 提示 ：考虑 最大的 「 N /21 个键码的移动。 

33. [2 J ] 设计一个算法，它把表示为左倾树的两个不相交的优先队列合并成一个。（特别是, 
如果给定的两队之一只包含单个元素，则你的算法将把它插入到另一个队中）。 

34. [ M 4]] 如果忽略 KEY 的值，有多少种可能的/ V 个结点的左倾树？这个序列以1，1 .2 ，4， 
8，17,38,87,203,482，1160，〜开始；使用类似于 2.3.4.4-4 的技术，试证明，对于适当的常数 a 和 

6,这个数渐近地是 ab N N - 3/2 0 

35. [26] 如果 UP 链接被加到一个左倾树上（参见 6.2.3 小节中三重链接树的讨论），则有可 
能从优先队列内删去任何节点 P 如下 ：用合 并后的 LEFT ( P ) 和 RIGHT ( P ) 代替 P ; 然后调整 P 诸 
祖先的 DIST 场，可能会交换左和右子树，直到达到根或者达到一个其 DIST 场未被改变的节点为 
止。 

试证明 ：如果 在这株树中有/ V 个节点，即使这株树可以包含非常长的向上通路，这个过程也 
不会要求改变多于 O ( lo g A 0 个 DIST 场。 

36. [ J 8] (最近最少使用的页的替换〉 许多操作系统都使用下列类型的算法：对一个节点集 
合施加两个操作，（0“使用”一个节点， （ ii ) 用一个新节点替换最近最少使用的节点。试问什么样 
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的数据结构有利于确认最近最少使用的节点？ 

37 . [ HM 32] 令 e N U ) 是在有 N 个元素的一个随机堆中，从根到第々个最大元素的预期的树 
式的距离，并令 e { k )— lim N — co (灸 ） o 于是 e ( l ) = 0， e (2) = l ， e (3) = 1.5 和 ^(4) = 1.875。试求 

的渐近值到 OU - 1 ) 的范围内。 

38. [ M 2 J ] 试求在具有/ V 个内部节点的堆或一个完全二叉树内，对于子树大小的多重集合 
m n 的一个简单递推关系。 


5.2.4 通过合并进行排序 

合并（或者整理）意味着把两个或多个有序文件组成一个单一的有序文件。例 
如，我们可以合并两个文件503 703 765和087 512 677，得到087 503 512 677 703 

765。实现此合并的一个简单方法是比较两个最小的项目，输出最小的，而后重复同 
一过程。以 f 




C 

|503 

703 

765 

开始，我们得到 



087 

512 

677 



1 

087] 

503 

703 

765 

然后 


512 

677 


接着 

087 

503 

|703 
丨512 

765 

677 



087 503 

512 

|703 

677 

765 



等等。当两个文件之一被取尽时，需要稍注意些。在下列算法中有这一过程的详细 
描述。 




图29合并和: 


算法 M (两路合并）本算法把有序文件：: r 2 < 


#参 ■ 





和: 




合并成一个单一文件 




2： 


* 
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Ml •[初始化]置 1 — 1 ， 1。 

M 2 •[找较小者]如果：则转到步骤 M 3, 否则转到 M 5 0 
M 3 •[输出：^ ] 置 z k ^— Xj , k^k + 1 , iz + 1 。如果，则返回 M 2。 

M 4 •[传送为，…， ： y „ ] 置 (义 ，…， 2 ； m + „)— (为，…，: y , J 并终止此算法。 

M 5 •[输出％]置为，々<— A + 7 + 1。 如果 7</2, 则返回 M 2。 

M 6 •[传送 Xi ,*■* ,^ m ] 置 （ 之々 ，…， 2； m+ J — (工,. ，… ，: r w ) 并终止此算法。 


我们将在 5.3.2 小节看到，当 m ^ n 时，这个直截了当的过程，实质上是在一台 
通常的计算机上进行合并的“最好”方法（而当 m 比 n 小得多时，却有可能设计一个 
更有效的合并算法，尽管一般说来它们是比较复杂的）。通过在输入文件的末端设 
置人工的“哨兵”元素 + 1 = % + 1 = ⑺，就可以在不降低很多效率的前提下使算法 

M 稍简单些，使其恰恰在输出〜之前停止。关于算法 M 的分析，见习题2。 

算法 M 的总工作量实质上与 m + n 成比例，所以显然，比起排序来，合并是较 
为简单的问题。而且，我们可以把排序问题归结为合并，因为有可能重复地合并越 
来越长的子文件直到一切都是有序的为止。可以把这当作排序思想的一个推 广：把 
一个新元素插入到一个有序的文件是合并的特殊情况 n = l 0 如果要加速这个插入 
过程，则可以考虑一次插入若干个元素，“成批”处理它们，而这自然地导致合并排序 
的一般思想。从历史上看，合并排序是用于计算机排序早期的方法 之一； 它早在 
1945年就由约翰•冯•诺依曼提出来了（见 5.5 节）。 

我们将在 5.4 节颇为详细地研究合并的问题，并考虑外部排序 算法； 本节，只专 
注于在一个髙速随机存取存储器内的合并排序问题。 

表1说明了一种合并排序，它类似于在快速排序、基数交换等方法中使用过的 
扫描过程的形式，“两头点 蜡”： 同时从左边和右边考察输入数据，并向中间靠拢。现 
在暂时忽略这个表的顶上那行，而考虑从行2到行3的变换。在左边，有递增的路 
段503 703 765;在右边向左读，有路段087 512 677。合并这两个序列得到087 503 
512 677 703 765,它被放置在行3的左边。然后行2中的键码061 612 908同170 
509 897合并，结果 （061 170 509 612 897 908) 被记录到行3的右端。最后，154 275 
426 653同653合并——在重叠为害之前就发现它——并把这个结果放到左边，紧 
跟着前边的路段。本表的行2以同样方式由行1的原始输入数据形成。 

表1自然的两路合并排序 


061 


908 


170 


908 



897 275 


154 275 



170 


509 

275 


765 

- \ 

512 

426 


154 


275 


612 

503 


677 

509 


653 


426 


426 

703 

512 


426 

_ 


653 


653 

—， 

765 

612 


154 


897 
^_ 


908 

897 


509 


509 


897 

908 


653 677 


612 


J70 


612 

653 

703 


677 


509 


612 


170 


087 


426 275 


765 


897 


061 

T54 


908 


表1中垂直的线表示路段之间的边界。这些垂线都是所谓的“下坡线”，即它们 


* 
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前边的元素大于后边的元素。在这个文件的中间，当我们从两个方向读到同一个键 
码时 ，一 般来说，要出现一个含混的状态；但如果像在下列算法中那样稍加注意，就 
不致于有问题。由于这个方法利用了它的输入中自然出现的“路段”，故习惯上称为 

“自然的”合并。 

算法 N (自然的两路合并排序） 使用两个存储区域，对记录 R \， …， Rn 排序， 

每个存储区域都能容纳 ] V 个记录。为了方便起见，我们假定，第二个区域的记录是 
只 N +1 ，…， i ? 2 N ，尽管]^ +1 并不必与相邻。 i ? N +1 ，…，尺 2N 的初始内容是无所谓 

的。在完成排序之后，键码将是有序的 



N 1. [初始化]置0(当 s = 0 时，我们把记录从 （ i ^， …，尺 v ) 区域传送到 

(尺 N +1 ，… ，只 2 N ) 区域； 当 5 = 1 时，以相反方向进行）。 

N 2. [准备进行扫描]如果 s = 0, 则置 z — 1，^;— TVj—N + 1， Z —27 V ; 如果 s = 

1，则置 i—N + 1， j —2 N ，々— 1 ，Z — N (变量 i ， j ， k ， I 指向正在读的“源文 
件”和正在写的“目标文件”的当前位置）。置1(变量 d 给出输出 
的当前方向；如果将来还要进行扫描，则置/为 0)。 

N 3 •[比较如 果心〉 心，则转到步骤 N 8。 如果 f =_;，则置 A — 氏，并 

转到 N 13。 

N 4 •[传送氏](步骤 N 4 〜 N 7 类似于算法 M 的步骤 M 3 〜 M 4) 置 R ^ R^k — 
k + d 。 

N 5 •[下坡？] f 加1。然后如果则返回到步骤 N 3。 

N 6 •[传送民 ]置 Rk — Rpk—k + d 。 

N 7 .[下坡？] j 减1。然后如果& + 则返回步骤 N 6; 否则转到步骤 N 12。 
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N 8 •[传送氏](步骤 N 8 〜 Nil 对偶于步骤 N 4 〜 N 7) 置 H ’ k—k + d 。 
N 9 •[下坡？] j 减1。然后如果& + 1 <\，则返回到步骤 N 3。 

N 10 •[传送見]置私―尺，々— 々 + 

Nil •[下坡？] f 增加1。然后如果则返回到步骤 N 10。 

N 12 •[转换方向]置 /—0， d — -丄并交换返回到步骤 N 3。 

N 13 •[换区域]如果/=0,则置1-5,并返回步骤 N 2。 否则排序 完成； 如果 
•S 二 0 ， 则置 （ ，…， Rn ) — ( Rn + I ，…，尺 2N) (如果把（只 ZV + 1 ，…， 尺 2N ) 作为输岀是可 
接受的，则不必执行后面的拷贝操作）。 | 


这个算法包含一个巧妙的特性，将在习题5中说明它。 

虽然编写算法 N 的 MIX 程序并不困难，但是我们无须构造整个程序，就可以推 

导其特性的基本事实。在随机条件下，输入中的递增路段数大约是 + N , 因为 

2 

& + 1 的概率是在稍微不同的假设下，关于路段数的详细信息已经在 5.1.3 小节 

中导出。每次扫描减少一半的路段数（对于像习题6那样的不寻常情况除外）。所 

以扫描数通常将大约是 lg+N = lgiV - l 。 每次扫描都需要传送全部 TV 个记录，而 

且由习题2,大部分时间都花费在步骤 N 3、 N 4、 N 5、 N 8、 N 9 上。如果假定键码相等 
的概率很低，我们可以估算内部循环的时间 如下： 


步 


或者 J 


或 



操 作 


N 3 

CMPA,JG,JE 

N 4 

STA,INC 

N 5 

工 NC ， LDA,CMPA,JGE 

NS 

STX,INC 

N 9 

DEC,LDX,CMPX ， JGE 




于是在每次扫描中对于每个记录大约花费12.5〃，在平常情况和最坏情况下， 

总共的运行时间都渐近于 12.5 JV lg N 。 这比快速排序的平均时间慢些，而就其花 

费两倍多的存储空间来说，不应认为它比堆排序好，因为程序 5.2.3 H 的渐近运行 
时间决不会多于 18 NlgiV 。 

在算法 N 中，完全通过“下坡”来确定路段之间的边界线。这可能是优点 ，即: 

一个主要是递增或主要是递减次序的输入文件可以非常快地被处理。但它减慢了 

主循环的计算。代替判断下坡，也可人为地确定路段的长度，例如在输入中所有路 

段的长度都是1，在第一次扫描之后（最后的路段可能除外）所有路段的长度都是2, 

…，在々次扫描之后所有路段（可能除开最后的路段）的长度都是2、相对于算法 N 
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中的“自然 ”合并 而言，称此方法为直 接两路合并。 

直接两路合并非常类似于算法 N ， 而且它实质上有同样的流 程图； 但区别还是 
不小的，因而最好再次写出整个算法。 

算法 S (直 接两路合并 排序）如同算法 N 中一样，使用两个存储区域对记录 

Ri ，…， R n 排序。 

5 1. [初始化]置 5—0— 1(关于变量 s ， i，k “ ， d 的意义见算法 N 。 这里 

P 表示在当前的扫描中有待合并的递增路段的大小和 r 记住在一个路 
段中未合并的项目数）。 

5 2. [ 准备进行扫描]如果 s = 0，则置 i — l，j — N ， k — N , l ^~2 N + 1;如果 s = 

1，则置 i — N + l ， j —2 N ， k —0 J — N + l 。 然后置 d — Uq — P ， r — p 。 

S 3 •[比较 K Z ： X ; ] 如果&>]^，则转到步骤38。 

S 4 •[传送反] lk—k + d ， R k — R io 

S 5 •[路段结束？] 置 i — i + — 1。 如果 g 〉0，则转回到步骤 S 3。 

S 6 •[传送民] 置 k—k + d 。 然后如果々=/，则转到步骤 S 13; 否则置私一％。 

S 7 .[路段结束？]置 j - l ， r = r _ l 。 如果 r >0, 则转回到步骤 S 6; 否则转 

向 S 12。 

S 8 •[传送民 ] 置 k—k 七 d ， Rk — Rj 。 

S 9 •[路段结束？]置 _ 1， r—r - 1。如果 r 〉0，则转回步骤 S 3。 

S 10 •[传 送尺] 置 k — k + d 。 然后如果々=/，则转到步骤 S 13; 否则置私― 

R io 

5 11. [路段结束？]置 f —z + l，g — 1。如果 g >0, 则转回到步骤 S 10。 > 

5 12. [转换方向] 置 q — p ， r^—p , d ， 并交换 k 4 ^ L Q 如果 j _ f ， 则返 

, 回步骤 S 10; 否则返回到步骤 S 3。 

5 13. [换区域]置 p — p + p 。 如果 f < iV ， 则置5^1 - s ， 并返回到 S 2。 否则 

排序 完成； 如果 s = 0, 则置 

( R \ , •** ， Rn ) — (R N+l ，…， R2 n ) 

(当且仅当 「[ gNl 是奇数或 iV = l 的平凡情况时，才执行后面的拷贝操作，而不 
管输人的分布如何。因此，有可能事先预测排序输出的位置，从而避免拷贝 ）。I 

作为本算法的下例，见表2。稍微使人惊奇的是，当 iV 不是2的一个乘方时，这个 
方法工作得 很好; 正在合并的路段不全都是长度为 Y 的，对于这些例外情况却还无明 
文规定(见习题 8)! 以前的下坡判断已经被 g 或 r 的减值运算、以及结果是否为0的 
判断所 代替; 这把 MIX 的渐近运行时间减少到 11 N lg iV 单位，比起我们由算法 iV 所 
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表2直接两路合并排序 


503 

087 

512 

061 

908 

170 

897 

275 

653 

426 

154 

509 

612 

677 

765 

703 

503 

703 

512 

677 

509 

908 

426 

897 

653 

275 

170 

154 

612 

061 

765 

087 

087 

503 

703 

765 

154 

170 

509 

908 

897 

653 

426 

275 

677 

612 

512 

061 

061 

087 

503 

512 

612 

677 

703 

765 

908 

897 

653 

509 

426 

275 

170 

154 

061 

087 

154 

179 

275 

426 

503 

509 

512 

612 

653 

677 

703 

765 

897 

908 


能达到的稍微快些。 

实际上，把算法 S 同直接插入结合起来是值 得的； 我们可以利用直接插入，代替 
算法 S 的前4趟扫描，来对16个项目的小组排序，从而避免短的合并造成的相当浪 
费的簿记操作。如在快速排序情况下所看到的，这种多个方法的结合并不影响渐近 
的运行时间，但它仍然不失为相当大的改进。 

现在从数据结构的观点来研究算法 N 和 S 。 为什么需要 2 iV 个记录单元而不 
是 N 个呢？原因比较简单 ：我们 处理的是可变大小的4个表（对于每次扫描要两个 
“源”表和两个“目标” 表）； 而对于每一对顺序地分配的表，我们使用的是 2.2. 2小节 
中所讨论的标准的“一起生长”的思想。但是存储空间的一半总是没有用上，稍做考 
虑就可看出，实际上应该对这4个表都使 用链接 分配。如果对 N 个记录的每一个 
都加上一个链接字段，利用简单的链接操作而全然不必移动记录，就可以做到合并 
算法所需要的每一件事！加 N 个链接字段，一般来说比加另外 N 个记录所需要的 
空间要好，而且减少记录的移动也节约时间。因此，我们应当考虑下述的合并算法。 

算法 L (表合并排序） 假定记录 〜，…， R n 包含键码]^，…， K iV ， 而且链接字 

段，…， L n 能容纳数 -(N + 1) 到 （ N + 1) 0 在文件的开始和结尾的人为记录尺0 

和1^ + 1 中，有两个辅助的链接字段“和 L n + 10 本算法是一个“表排序”，它设置 

链接字段，使得诸记录以递增次序被链接在一起。在排序完成之后，是具有最小 

键码记录的 下标； 而且对于 l < k < N , L k 是^后面的记录下标，如果 R 是具有最 

大键码的记录，则 M =0( 见等式 5.2. 1-(13))。 

在本算法的过程中，尺。和只„ + 1 作为其子表正被合并的两个线性表的“表头”。 

一个负的链接表示被排好序的一个子表的 结尾； 一个零链接表示整个表的结尾。假 
定 N >2。 

式 “ llj — p ” 指的是“把置成 p 或 - />，但要保留 L s 以前的符号”。这个操 

作很适合于 MIX , 但可惜并不适合于大多数计 算机； 我们可以直截了当地修改这个算 
法，以得到一个对于大多数机器都同样有效的方法。 

L1. [准备两个表]置 L 0 — l ， L jV + 1 — 2,对于 l < f < N -2 置 L 广 - G +2)， 并 

置 Ln — k —0( 我们已经分别建立了包含义，]^，]^，…及 R 2 , R 4 , 
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尺 6 …的两 个表; 负的链接指出每个有序的“子表”仅由一个元素组成。利用在 

初始数据中可能出现的次序，可以用另一种方法执行这一步，见习题12)。 

L 2 •[开始新的扫描] 置 — N + l，p — L s ,q — L l0 如果 g = 0, 则本算法 

终止（在每次扫描期间 j 和 g 都遍历正被合并的表 u 通常指向当前子表 
的最近被处理的记录，而 r 指向上一次输出的子表的结尾）。 

L3 •[比较如果心>\，则转 L6 。 

L 4 •[推进 /?] 置 — 如果 />〉0,则返回 L 3。 

L5 . [完成子表]置 L s ^~q , s^~t o 然后置 t^~q 且 g ， 一次或多次，直到 g 

<0为止。最后转向 L 8。 

L6. [推进 <? ] (步骤 L 6 和 L 7 对偶于 L 4 和 L 5) 置 I L s | — g ， s — q ， — L g 。 如 

果 g 〉 0 ，则返回 L 3 。 

L 7 •[完成子表] 置 L s — p ， s — t 。 然后置 t — 和 f ~， 一 次或多次，直到夕 

<0为止。 

L8. [扫描结束？](这时，^<0和 g <0, 因为两个指针都分别移动到它们子表 

的结尾） 置 p < - p , q < - q 。 如果 g = 0 ， 则置 | L 5 | — p ， | Lj — 0并返回 

步骤 L 2。 否则返回 L 3 。 | 

执行这个算法的一个例子见表3,其中我们可以看到每次遇到步骤 L 2 时的链接 
情况。使用习题 5.2-12 的方法，即可在这个算法的结尾处重新安排记录 K ，…， Rn ， 

以使它们的键码有序。在表合并和稀疏多项式的加法（见算法 2.2.4 A ) 之间，有着有 
趣的类似性。 

表 3 表合并排序 

j 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 

K } — 503 087 512 061 908 170 897 275 653 426 154 509 612 677 765 703 — 

L } 1 —3 —4 —5 -6 -7 -8 -8 - 10 - 11 - 12 - 13 - 14 - 15 - 16 0 0 2 

L } 2 - 6 1 -8 3 - 10 5 - 11 7 - 13 9 12 - 16 14 0 0 15 4 

Lj 4 3 1 - 11 2 - 13 8 5 7 0 12 10 9 14 16 0 15 6 

Lj 4 3 6 7 2 0 8 5 1 14 12 10 13 9 16 0 15 11 

Lj 4 12 11 13 2 0 8 5 10 14 1 6 3 9 16 7 15 0 

现在来构造算法 L 的一个 MIX 程序，从速度的观点以及空间的观点看，表操作 
是否有利 D 

程序 L (表合并排序） 为方便起见，假定记录都是一个字长的，且 L , 在单元 

INPUT + J 的 （0:2) 字段中，在（3:5)字段中；1*11三{， rl 2= q f rI 3 = 5, r \4= t y rA 

= K q ； N >2 0 
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01 

L 

EQU 

0:2 

02 

ABSL 

EQU 

1:2 

03 

KEY 

EQU 

3:5 

04 

START 

ENT1 

N-2 

05 


ENNA 

2,1 

06 


STA 

INPUT, 1(L) 

07 


DEC1 

i 

08 


J1P 

* - 3 

09 

ENTA 

1 


10 


STA 

工 NPUT(L) 

11 

ENTA 

2 


12 


STA 

INPUT + N+ 1(L) 

13 


STZ 

INPUT 十 N - 1(L) 

14 


STZ 

INPUT + N(L) 

15 


JMP 

L2 

16 

L3Q 

LDA 

工 NPUT,2 

17 

L3P 

CMPA 

INPUT, 1( KEY) 

18 


JL 

L6 

19 

L4 

ST1 

工 NPUT ， 3(ABSL) 

20 


ENT3 

0,1 

21 


LD1 

工 NPUT,1(L) 

22 


J1P 

L3P 

23 

L5 

ST2 

工 NPUT ， 3(L) 

24 


ENT3 

0,4 

25 


ENT4 

0,2 

26 


LD2 

INPUT,2(L) 

27 


J2P 

长 — 2 

28 


JMP 

L8 

29 

L6 

ST2 

工 NPUT,3(ABSL) 

30 


ENT3 

0,2 

31 


LD2 

INPUT,2(L) 

32 


J2P 

L3Q 

33 

L7 

ST1 

工 NPUT,3(L) 


N- 2 
N-2 
N-2 
N-2 


1 


C 

C 

C 

C 

C 

C 

C 

B' 

D ， 

D x 

D ， 

B' 

C 

C 

C 

c 

B" 


字段名的定义 


LI . 准备两个表 


L t ^~~ (i + 2) 

N-2>i>0 



Ln + i —2 

Ln- 1—0 

0 

转 L 2 

L3 . 比较 K p :K q 


如果 K q < K q 则转 L 6 
L 4 , 推进 /?。 I L s I -*-p 

s ^~ p 

P — Lp 

如果 p > 0 则转 L 3 
L 5 .完成子表。 L^g 

s — t 

q — L q 

如果 <?>0 则重复 
转 L 8 

L 6 . 推进 g 0 \ L s \^~q 
s — q 

如果 q > 0 则转 L 3 
L 7 •完成子表。 L s —p 


摹 
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34 


ENT3 

35 


ENT4 

36 


LD1 

37 


J1P 

38 

L8 

ENN1 

39 


ENN2 

40 


J2NZ 

41 


ST1 

42 


STZ 

43 

L2 

ENT3 

44 


ENT4 

45 


LD1 

46 


LD2 

47 


J2NZ 


0,4 B 

0,1 D" 

INPUT,1(L) D" 

* - 2 D 〃 

0,1 B 

0,2 B 

L3Q B 

工 NPUT ， 3(ABSL) A 

INPUT,4(ABSL) A 

0 A + 

N+ 1 A + 

INPUT(L) A 十 

工 NPUT + N + l(L) A + 

L 3 Q A + 


s — t 
t — p 

P—Lp 

如果 p >0 则重复 
L8. 扫描完成？ p* — p 

d 

如果 g 关 0 则转 JL 3 

I L S \^P 

ILJ-O 

L2 .开始新的扫描。 5-0 
t—N + 1 

d 

如果 (? 关 0 则转 L 3 I 


利用在这以前已见过多次的技术（见习题 13 和14)，就可以推导这个程序的运 

行时间；平均说来，它近似于 （lOiVlgN + 4.92 iV ) w ， 并具有阶为#的很小的标准 
差。习题15说明，以较长的程序为代价，运行时间还可以少到大约 9 NlgN 0 

因此，在进行内部合并时，链接存储技术显然胜过顺序分配：只需要较小的存储 
空间，而程序运行要快大约 10% 〜20%。 L.J . Woodrum [IBM Systems J . , 8(1969), 
189 〜 203] 和 A . B . WoodaWlComfi . J . , 13(1970) ， 110 〜 111 ] 已经发表了类似的算 

法 0 


习题 

1 . [2 J ] 把算法 M 推广到输人文件 — 的一个々路合并，其中 2 _ = 1，2,…，是。 

I 

2. [ M 24] 假定在 n 个: y 之中插人 m 个2的种安排，每一种都是同等可能的，试求 

算法 M 中步骤 M 2 被执行次数的平均值和标准差。问这个量的极大值和极小值是多少？ 

► 3.[20] (更新）给定记录仏，…， i ? M 和以 ，… ，尺 ；；，它们的键码是不同的和有序的，就是说 

和〈 〈… < iT N ，如果我们要 求：当 第一个文件的记录尽的键码也出现于第二个 

文件中时，则抛弃尺，试说明如何修改算法 M 以得到一个合并的文件。 

4.[21] 正文中已经注意到，合并排序可以认为是插人排序的一个推广，试说明合并排序如同 
图23中所指出的那样，也同树选择排序密切相关。 

► 5. [21] 证明在步骤 N 6 或 N 10 中，/决不会等于 j (因此在这些步骤中不必判断是否应转向 
N 13)。 

6. [22] 求|1，2，"、161的一个排列 
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K 2 > K 3 , K 4 > K 5 , K 6 > Kj , K & > K 9 , K 10 < K n , K n < K 13 , K 14 < X 15 

而且算法 N 仅仅用两次扫描完成对这个文件的排序（因为有 8 个或更多的路段，预期在第一次扫 

描之后至少有4个路段，在第二次扫描之后有2个路段，而通常至少经过3次扫描才能完成排序。 
如何能通过仅仅两次扫描来完成）。 

7-[ i 6] 试给出算法 S 所需要的精确扫描次数的公式（作为 AT 的一个函数）。 

8. [22] 在算法 S 中，假定变量 g 和 r 表示当前正在处理的路段中尚未合并的诸元素的 长度; 
g 和 r 两者开始都等于 >，但路段并不都是这样长的。问这怎么能行得通呢？ 

9. [24] 写出算法 S 的一个 MIX 程序，利用类似于程序 L 中的量^，^/，^〃，(^，…确定指令 
频率。 

10-[25] ( D . A . BeU ) 说明顺序分配的直接两路合并可以通过至多 f N 个存储单元完成，而 

不是像算法 S 中那样需要 2 N 个。 

11.121] 算法 L 是一个稳定的排序方法吗？ 

► 12. [22] 利用开始时存在的递增路段，修正算法 L 的步骤 L 1， 使得两路合并是“自然的”（特 

别是，如果输人已经有序，则在你的步骤 L 1 迸行之后，步骤 L 2 应立即终止这个算法）。 

>13.[ M 34] 按这一章中其它分析的风格，给出对程序 L 的平均运行时间的 分析： 解释量 A , 

5，矿 ，… ，并且说明怎样计算它们的精确平均值。为对表3中的16个数排序，程序 L 要用多长时 
间？ 

\4.[ M 24] 设 TV 的二进表示是2^+24十…+2'，其中 勹〉… 证明由算 
法 L 执行的键码比较极大次数是 1-25 + ' E ^ i ( e k + k -1)2^ 0 

15. [20] 算法 L 的手工模拟揭示，它有时做一些多余的 动作； 步骤 L 4 和 L 6 中的赋值 I L 5 | — 

户 ， I 1 — g 有一半的次数是不必要的，因为在每次由步骤 L 4( 或 L 6) 返回到 L 3 时，我们有 L s = p 

(或 g )。 如何能改进程序 L ， 来消除这些多余的赋值？ 

16-[25] 设计一个类似算法 L 的表合并箅法，但它以三路合并为基础。 

17. [20] ( J . M . Carthy ) 设 N 的二进表示如同习题14中那样，并假定给了我们 N 个记录，这 
些记录分布在 r 个有序子文件中，其大小分别为2^，2~，…，2^。试说明当附加一个新的第 
( N +1) 个记录且 N—N + 1 时，怎样维持这一事态（得到的算法可以称为“联机”合并排序）。 

18. [40] ( M . A . Kmnrod 给定仅含两个路段的 N 个记录的一个文件 

& <… 〜和〜十 t … 

有可能在一个随机存取存储器中用 O ( A 0 个操作对这个文件排序吗？而且不论 M 和 N 的大小 

如何，只 许使用少量固定的附加存储空间 （本节描述的所有合并算法都使用与 iV 成比例的额外存 
储空间）。 

19. [26] 考虑当 n =5时，如图31中所示的具有 n 个“找”的铁路转辙器网络（在习题 2.2.1- 
2~2.2. 1-5 中，我们曾考虑过一个栈的网络）。如果有 N 列火车从右边进人，我们发现，在一个栈 
的情况下，这些车的 N ! 个排列中仅有比较少的排列出现在左边。 



學 
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0 31具有5个“栈”的铁路网络 
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在 n 个栈的网络中，假定有2” 列车从右边进入。试证明这些列车的种可能排列中的每 
一种，通过适当的操作序列都可在左边得到。必要时每个栈都比图中所示的要大得多，以便能容 

纳所有的列车。 

20. [47] 在习题 2.2.1-4 的符号标记下，通过《个栈的铁路网络至多能产生 N 个元素的4 
个 排列； 因此为得到所有 N ! 个排列所需要的栈数至少是 log N ! /log a N 々 log 4 N 。 习题19则说 

明至多需要 rig ni 个栈。当⑺时，所需要栈数的真实增长率是多少？ 

21. [23 ](A J . Smith ) 说明怎样扩充算法 L ， 使得除排序外，它还计算输入排列中出现的反序 

个数。 

22. [28 ]( J . K . R . Barnett ) 试提出一个方法来加速对于多字键码的合并排序（习题 5.2.2-30 
考虑了对于快速排序的类似问题）。 

23 . [ M 30 ] 习题 13 和14分析了合并排序的“由底向上”或迭代版本，其中对 N 项排序的费 
用 c ( N ) 满足下列递 推式： 

c ( N ) = c (2 k ) 4 - C (N - 2 k ) + f (2 k ,N - 2 k ) 对于/ < N <2" + l 

/(7/1，〃）是把爪个事物同《个事物合并的费用。研究“由顶向下”或分而治之递推式 

c ( N ) = c ([ N /2 l ) + c ( LN /2 j ) + /(「 N /2 l )， LN /2」) 对于 TV > 1 

此式出现于合并排序以递归形式来进行程序设计时。 

5.2.5 通过分布进行排序 

我们下面要讨论的一类有趣的排序方法，当以 5.4.7 小节中将讨论的观点来看 
时，实质上恰是与合并相对。这些方法在电子计算机发现以前，曾被用于对穿孔卡 
片进行排序许多年。同样的方法也可用于计算机的程序设计，并且由于它是以键码 
的数字为基础的，因而一般称它为“桶排序”、“基数排序”或“数字排序”。 

假设要对52张扑克牌进行排序。我们可以定义 

A <2<3<4<5<6<7<8<9< 10 < J < Q < K 

作为面值的一个排序，而对于花色，我们可以定义 

* < ◊ < 0 < ♦ 

如果 （0 — 张牌的花色小于另一张牌的花色，或 （ U ) 花色相同，但它的面值较另一张 
牌小（这是对象有序偶之间的一个字典次序的特殊情况，参见习题5-2)，则我们称这 

张牌是位于另一张牌之前。于是 

A * < 2* < …< K * < A ◊〈… < 0奉 < 

可以用已经讨论过的任何方法来对这些牌进行排序；人们通常使用有些类似于 

基数交换思想的一种技术：先按它们的花色分成4堆，然后拨弄每一堆直到它们变 

成有序的为止。 

但是还有一种更快的方式来处理这叠牌！首先把这些牌仰面分成13堆，每种 
面值一堆。然后通过把牌 A 放在下边，2朝上放在它们的上面，然后放3在上面，等 
等， 最后把 K 面朝上放在上边，来收集这些堆。翻转这些牌使它们面朝下并且再次 
分堆，这次按4种花色分成4堆。把这样得到的4堆放在一起，黑梅花放在底下，然 

后方块、红桃和黑桃，这副牌就成为完全有序的了。 

同样的思想也可应用于数和字母数据的排序。为什么它有效呢？因为（在扑克 
牌的例子中）如果两张牌在最后分堆时位于不同的堆中，则它们有不同的花色，所以 
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具有较低花色的一张在最下面。但是如果两张纸牌有相同的花色（因此它们分在同 

一 堆中），则由于前边的排序它们已处于适当的次序了。换言之，当我们第二次扫描 

这些纸牌时，对于这4堆的每一堆，面值将处于递增的次序。同样的证明可被抽象 

出来，以指出任何字典次序也可以用这种方式进行 排序； 关于其细节，见本章开始处 
习题 5-2 的答案。 

刚才描述的排序方法并非一目了然，并且也不清楚是谁最先发现它如此有效。 

1923年 ， IBM 的 Tabulating Machine Company 分部发表的题为 “The Inventory Sim ¬ 
plified ” 的 19 页小册子，介绍了在他们的电动排序机上，形成乘积和的一种有趣的数 
字计划方法：例如，假设我们要用23〜25列上穿孔的数来乘1〜10列上穿孔的数， 
并对大量的卡片把这些乘积加起来。可以首先对第25列进行排序，然后使用 Tabu ¬ 
lating Machine 求量〜， a 2 ，…，< 2 9 ，其中〜是对于在第25列中有6的所有卡片的1 

〜10列求和的总数。然后可以对第24列进行排序，求类似的总和心 ，卜 ，…，6 9; 然 
后对第23列，得到 q ， c 2 ,〜， c 9 。 容易看出所求的乘积和是 
cl \ + 2 a 2 + **■ + 9 a 9 + 10〜+ 20心2十…+ 906 q + lOOq + 200 c 2 + …+ 900 c 9 

这种穿孔卡片的造表方法自然导致发现首先对最低数字排序的基数排序方法，所以 
它后来大概已为机器的操作员所熟知。这个排序原理的第一个公开参考文献出现 
于 L . J • Comrie 关于穿扎卡片设备的早期讨论中 [TVansacfions o / fhe Office Machin ¬ 
ery Users ’ Assoc ‘ ,Ltd (1929) ， 25 〜 37,特别是第 28 页]。 

为了处理一台计算机内部的基数排序，我们必须决定如何处理这些堆。假定有 
M 个堆，我们可以留出 M 个存储区域，把来自输入区域的每个记录移到它的适当 
的堆区域中。但这难以令人满意，因为每个区域都必须足够地大以容纳 N 个项目， 
而这将要求 （ iVT + l ) iV 个记录的空间。因此大多数人都拒绝在计算机内部做基数 

排序的考虑，直到 H . H . Seward [ Master f s thesis ， M • I . T . Digital Computer Laboratory 
Report R - 232 ，（ 1954) ， 25 〜 28] 指岀，可以仅用 2 iV 个记录的区域和 iVT 个计数字 
段，来达到同样的效果，情况才有所改变。只需对这些数据进行初步扫描，以计算 
M 堆中的每一堆将有多少个 元素； 这确切地告诉我们怎样为这些堆分配存储。在 
“分布计数排序”算法 5.2 D 中，已经利用了同样的思想。 

于是基数排序可以按如下方式进行 ：首先 按键码的最低位数字（在基数 M 的记 
法下）进行分布排序，把取自输入区域的记录移到一个辅助区域。然后对于下一个 
最低位，进行另一次分布排序，把记录移回到原来的输入区域，等等，直到最后（对最 
高位数字）的扫描把所有的记录排成所希望的次序为止。 

如果有一台具有12位数字的键码的十进制计算机，并且 iV 相当大，则可以选 
择 M = 1000( 考虑3个十进数字作为一个1000进制的数 字）； 排序将在4次扫描中 
完成，而不论 N 的大小如何。类似地，如果有一台二进制计算机和一个40位的键 
码，则可以置 M = 1024 = 2 1 G ，并且在4次扫描中完成排序。实际上，每次扫描由三 
部分组成(计数，分配，移 动）； E . H.Friend 3(1956)151 ] 已经建议，在第々次 

扫描中移动记录的同时，为第々 十1 次扫描累加计数，这样，就能以多用 M 个存储单 
元为代价，把扫描中的两件事情组成在一起。 

表1说明，对于 M = 10,这样一个基数排序如何被应用于我们的16个示例数 
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字。 一般来说，对于这样小的 N 基数排序没有什么用，举这样一个小例子的目的是 
要说明这个方法的充分性而不是其效率。 


表1基数排序 


输入区域 内容： 503 087 512 

061 

908 

170 897 

275 

653 

426 

154 

509 

612 

677 

765 

703 

对于个位数字分布的 计数： 


1 

1 2 

3 

1 

2 

1 

3 

1 

1 





以这些计数为基础的存储 分配： 


1 

2 4 

7 

8 

10 11 14 

15 

16 





辅助区域的内容：170 061 512 

612 

503 

653 

703 

154 

275 

765 

426 

087 

897 

677 

908 

509 

对于十位数字的分布的 计数： 


4 

2 1 

0 

0 

2 

2 

3 

1 

1 





以这些计数为基础的存储 分配： 


4 

6 7 

7 

7 

9 

11 

14 

15 

16 





输入区域的内容： 503 703 908 

509 

512 

612 

426 

653 

154 

061 

765 

170 

275 

677 

087 

897 

对于百位数字的分布的 计数： 


2 

2 1 

0 

1 

3 

3 

2 

1 

1 





以这些计数为基础的存储分配： 


2 

4 5 

5 

6 

9 

12 

14 

15 

16 





辅助区域 内容： 061 087 154 

170 

275 

426 , 

503 

509 

512 

612 

653 

677 

703 

765 

897 

908 


然而，一个敏感的“现代”读者将注意到，对于存储分布进行数字计数的整个思 
想，都受到顺序数据表示的“旧”思想的束缚；我们知道，链接分配是特别设计用来处 
理可变大小的多重表的，所以对于基数排序自然应选择链接的数据结构。由于串行 
地遍历每一堆，因此需要的仅仅是从每个项目到它的后继者的一条单链。而且，决 
不需要移动这些记录，仅需调整这些链接并轻快地向下通过这个表。需要的存储数 
量是 （l + dN + 2 WT 个记录，其中6是一个链接字段所取的空间数量。这个过程的 
形式细节是相当有趣的，因为它提供了一个典型数据结构操作的完美例子，它综合 

了顺序的和链接的分配。 



图 32 基数表排序 

算法 R (基数表排序）假定记录 Rr .. R N 中的每个都包含一个 LINK 字段，它 
们的键码是元组 

(a”a 2 , … ， a p ), 0 < a 7 - < M (1) 
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其中，次序按字典顺序定义，即 

( 〜， < 2 2 ,…，％) < (bi ， b 2 , … ， bp) ( 2 ) 

当且仅当对某个我们有 

对所有 i < j , a { = b { 但七< bj (3) 

特别是，键码可以想成是以基数 M 的表示法写成的数 

a x M p ~ x + 2 十…十 a p . x M + a p (4) 

在这种情况下，字典次序相当于非负数的正常次序。键码也可以是字母串，等等。 

排序使用 M “堆”记录，以模拟一个卡片排序机动作的方式来进行。诸堆事实 
上都是第2章意义上的队列，因为我们把它们链接在一起，使得它们以先进先出的 
方式被遍历。对于每个堆，都有两个指针变量 TOP [ i ] 和 BOTM [ i ]，0< z _< M ， 而且如 
同在第2章那样，我们假定 

LINK ( LOC ( BOTM [ i ])) = BOTM [ i ] (5) 

R 1. [对々进行循环]开始时，置 p — LOC ( i ^) ，这是指向最后记录的一个指针。 

然后对于 k = \，2, …， p 执行步骤 R 2 到 R 6( 步骤 R 2 到 R 6 组成一趟“扫 
描”）。然后这个算法终止，且 > 指向具有最小键码的记录， LINK ( P ) 指向 
具有次小键码的记录，接着 LINK ( LINK ( P ))， 等等； 在最后记录中的 LINK 

将是八。 

R 2. [置诸堆皆空]对于 M ， 置 TOP [ i ]— LOC ( BOTM [ i ]) 和 BOTM [ i ]— 八 0 
R 3. [抽取键码的第々位数字]令由 P 访问的记录中的键码 KEY ( P ) 是 （ ai ， fl2 , 

…，％ ) ;置 i ^~ a p + x - k ，即是这个键码的第々个最低位。 

R 4 •[调整链接]置 LINK ( TOP [ i ])— P ， 然后置 TOP [ i ]— P 。 

R 5. [步进到下一个记录]如果々 = 1(第一次扫描）且如果对于某个 j 乒 1 ，P = 

LOC ^) ，则置 P — LOC ^ Rj ^) 并返回到 R 3。 如果々>1(随后的扫描），则置 P 

— LINK ( P )， 如果 P 乒八则返回到 R 3。 

R 6. [执行算法 H ] (现在已把所有的元素都分配到诸堆上）实施以下的算法 

H ， 它把各堆“钩在一起”，形成一个表，以准备进行下次扫描。然后，置 P — 
BOTM [0], 这是指向已钩起来的表的第一个元素的指针（见习题3)。 ■ 

算法 H (队列的挂钩）给定 M 个队列，它们已各自按照算法 R 的约定链接，本算 
法至多调整 M 个链接来建立一个单队列，且 BOTM [0] 指向第一个元素，并置堆0在 
堆1之前，……，在堆 M -1 之前。 

H 1 •[初始化]置 i —0。 

H 2 •[指向堆的顶部]置 P — TOP [ i ]。 

H 3 •[下 一堆] i 加1。如果 / = M ， 则置 LINK ( P )— A ， 并终止此算法。 
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H 4 •[堆为空？]如果 BOTM [ i ] =八，则回到 H 3。 

H 5 •[把诸堆链在一起]置 LINK ( P )— BOTM [ f ], 返回到 H 2。 | 

图33所示为以 M = 10对我们的16个例数进行排序时，三次扫描之后的情况， 
一旦找到处理步骤 R 3 和 R 5 的逐趟变形的一个适当方法，则算法 R 的 MIX 程序是 
非常容易编写的。下列程序通过重叠两条指令，在不牺牲内循环任何速度的情况 
下，做到了这一点。注意 TOP [ i ] 和 BOTM [ i ] 可以组装进同一字中。 


TOPCO] TOP[l] TOP[2] TOP[3] TOP[4] TOP[5] TOP[6] TOP[7] TOP[8] TO P[9] 



「 丁 TTTT 丨 ] t 1 


BOTM[0]BOTMDJ B0TMC2] B0TM[3] B0TM[4] B0TM[5] B0TM[6] B0TM[7] B0TM[8] B0TM[9] 


TOP[0] TOPCU T0P[2] T0P[3] T0P[4] T0P[5] T0P[6] T0P[7] T0P[8] T0P[9] 






t 




t 




BOTM[0]BOTM[1] B0TM[2] B0TM[3] B0TM[4] B0TM[5] B0TM[6] B0TM[7] B0TM[8] B0TM[9] 


TOP[0] T0P[1] T0P[2] T0P[3] T0P[4] T0P[5] T0P[6] T0P[7] T0P[8] T0P[9] 



f 


BOTMCO] B0TM[H B0TM[2] B0TM[3] B0TM[4] B0TM[5] B0TM[6] B0TM[7] B0TM[8] B0TM[9] 


图 33 使用链接分配的基数排 序：在 每次扫描之后 10 个堆的内容 

程序 R (基数表排序）假定单元 INPUT + 1到工 NPUT + N 中的输入有 p = 3个分 
量（&，&，&)，分别存储在（1:1)， （2:2) 和 （3:3) 字段中（这就假定了 M 是小于或等 

于 MIX 的字节大小的）。每个记录的 (4:5) 字段是它的 LINK 。 对于 0< i < M ， 令 TOP 
[ i ]= PILES + i ( l ：2 )fP BOTM [ i ]= PILES + i (4：5) 0 使诸链接同单元 INPUT 相关，以便 


165 • 











































第 5 章排序 


LOC(BOTM[i]=PILES + i-D?PUT 是方 便的； 为了避免负链接，因此我们要求 PILES 表 
处于比工 NPUT 表髙的单元。对变址寄存器赋值如下 ：rIl = P , rI 2 = i , rI 3 = 3~^, rI 4 
=TOP [ f ] ;在算法 H 期间， f - M 。 

01 LINK EQU 4:5 


02 

TOP 

EQU 

1:2 

03 

START 

ENT1 

N 

04 


ENT3 

2 

05 

2H 

ENT2 

M- 1 

06 


ENTA 

PILES-INPUT,2 

07 


STA 

PILES,2(TOP) 

08 


STZ 

PILES,2(LINK) 

09 


DEC2 

1 

10 


J2NH 

* — 4 

11 


LDA 

R3SW,3 

12 


STA 

3F 

13 


LDA 

R5SW,3 

14 


STA 

5F 

15 

3H 

[LD2 

工 NHJT,1(3:3)] 

16 

4H 

LD4 

PILES ， 2(T0P) 

17 


ST1 

工 NPUT ， 4(LINK) 

18 


ST1 

PILES, 2 (TOP) 

19 

5H 

DEC1 

m 

■ 

1_ 

20 


J1NZ 

3B 

21 

6H 

ENN2 

M 

22 


JMP 

7E 

23 

R3SW 

LD2 

工 NPUT,1(1:1) 

24 


LD2 

工 NPUT,1(2:2) 

25 


LD2 

工 NPUT,1(3:3) 

26 

R5SW 

LD1 

工 NPUT, 1( LINK) 

21 


LD1 

工 NPUT,1(LINK) 

28 


DEC1 

1 

29 

9H 

LDA 

PILES+ M, 2 (LINK) 

30 


JAZ 

8F 

31 


STA 

INPUT, 1( LINK) 

32 

7H 

LD1 

PILES+ M,2(T0P) 

33 

8H 

工 NC2 

1 

34 


J2NZ 

9B 

35 


STZ 

工 NPUT, 1( LINK) 

睚 

36 


LD1 

PILES(LINK) 

37 


DEC3 

1 

38 


J3NN 

2B 


i 

IU . 对 k 进行循环。 P^-LDC( R n ) 

i 


3 

R 2 ‘ 置诸堆皆空 

3 M 

LOC(BOTM[i]) 

3 M 

—TOP[i] 

3 M 

BOTM[z]^-A 

3 M 


3 M 

M > i >0 


3 

3 修改第 6 次扫描的指令 

3 

3 

R 3. 抽取键码的第》位数字 
3 N R 4. 调整链接 

3 N LINK ( TOP [ i'])—P 

3 N TOP [ i]<-P 

R 5. 步进到下一个记录 
3 N 如果扫描结束转到 R 3 

3 R 6. 执行算法 H 

3 以0转到 H 2 

N 当々= 3时， R 3 的指令 

N 当 A = 2时， R 3 的指令 

N 当々=1时， R 3 的指令 

N 当々= 3时， R 5 的指令 

N 当々=2时， R 5 的指令 

N 当々=1时, R 5 的指令 

3 M - 3 H 4. 堆为空? 

3 M -3 如果 BOTM[f ] = A , 则转到 H 3 

3 M -3 -E H 5. 把诸堆链在一起 

3 M-E H 2. 指向堆的顶部 

3 M H 3. ~ F — 堆 。i —2. + 1 

3 M 如果 fM 转到 H 4 

3 LINK ( P ) 和八 

3 P — BOTM [0] 

3 

3 对循环 | 
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程序 R 的运行时间为32〜+ 48]^ + 38-4£，其中]\/是输入的记录个数， M 是 
基数（堆数）， E 是出现的空堆个数。这非常适合于同以类似假定为基础的其它程序 
(程序 5.2.1 M , 5.2.4 L ) 进行对比。这个程序的 f 趟变形将花费（11> _ 1 )N + 
0(/> M ) 个单位 时间； 计时中的关键因素是内部循环，它包含5次对存储的访问和1 
次转移。在一台典型的计算机上，有 M = Y 和户其中，是在这些键码中基 
数6的数字 个数； 增加 r 将减少所以这个公式可用来确定 r “最好的”值。 

计时中惟一的变量是£：，即在步骤 H 4 中发现的空堆个数。如果认为基数为 M 
WM n 个数字序列中的每一个都是同等可能的，则从 3.3.2 D 中对于“扑克检验”的 
研究知道，每次扫描有 M _ r 个空堆的概率是 


M(M - 1 )."(M - r + 1 ) N 

1 r 


( 6 ) 


其中 |7| 是第二类斯特林数。由习题5 

/ 1 \N 

E = (min max ( M — N ， Q ) p ， aveM 11 — ^： 1 p , max ( M — 1) p ) (7) 

“流水线”或“吞嚼”数据的计算机近年来与日俱增。这些机器有多个运算器以 
及“先行控制”线路，使得存储的访问可以和计算高度重叠，但是它们的效率在出现 
条件转移指令时显著地下降，除非这个转移几乎总是走同一条路。 一 个基数排序的 
内部循环，很适合于这种机器，因为它是典型的“吞嚼”数据形式的一个直接迭代计 

算。 因此，假定 JV 不太小而键码不太长的话 ，比起在这样机器上的任何其它已知的 
内部排序方法来，基数排序通常要更为有效。 

当然，基数排序在键码极其长时不是非常有效的。例如，假定要使用 M = 10 3 , 
以一个基数排序的20次扫描，来对60位十进数进行 排序； 在它们前9位数字中，很 
少有一对数趋向于有相同的键码，所以前17次扫描完成的事情很少。在对基数交 
换排序的分析中，我们发现，当从左边而不是右边考察键码时，没有必要观察键码的 
许多二进位。因此，我们重新考虑从最高位数字 （ MSD ) 而不是从最低位数字 （ LSD ) 

开始的基数排序的思想。 

我们已经说过，首先排最高位数字的基数方法是很自然形 成的； 事实上，不难看 
出，为什么邮局即使用这样一种方法来对邮件进行排序。大量的信件可以排序成按 
不同地理区域分开的邮包，每一个包包含较少量的信件；然后这些信件可独立于其 
它的包，按越来越细的地理区域继续排序（实际，在它们进一步被排序之前，已被投 
递到更接近于它们目的地的地方 h 这个“分而治之”的原理是十分有吸引力的，而 
它对穿孔卡片的排序不特别适用的惟一原因，是它毕竟花费太多的时间去跟非常小 
的堆打交道。算法 R 是相对有效的，尽管它首先考虑最低有效位数字，因为绝不会 
多于 M 个堆，而且它们仅仅需要钩在一起^次。另一方面，利用链接内存，并像算 
法 5.2.4 L 那样以负的链接来表示堆之间的边界，则不难设计首先处理最高有效位 
的方法（见习题10)。主要的困难在于空堆趋向于繁衍扩大，并且在最高有效位优 
先方法中耗费大量时间。 
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最好的折衷可能是 M . D . MacLaren 所提岀来的 [/ACM 13 ( 1966 ) ，404〜411 ] ， 
他推荐如算法 R 中那样的首先处理最低位数字的排序 ，但仅仅应用于最高的那、些数 
字位。这不能完全把文件排好序，但它通常都把文件排成为非常接近有序的，而仅 
剩很少的 反序； 因此可用直接插入来完成。对算法 5.2.1 M 的分析也可应用于这种 
情况，所以，如果键码是均匀分布的，在对前^个数字进行排序之后，将在文件中平 
均剩下 

-~ N(N - l ) M~ p 

个反序（见等式 5.2.1-(17) 和习题5.2.1-38)。 MacLaren 已经算出每排好一个项目 
所需的存储访问的平均次数，以及 M 和 f 的最优选择（假定 M 是2的乘方，以及这 
些键码都是均匀分布的，且 N / M 〃<0.1， 则对于均匀性的偏离是可以容忍的）是由 
下表给 岀的： 


N 

=100 

1000 

10000 

100000 

1000000 

10 7 

10 s 

10 9 

最好的 M 

= 32 

128 

512 

1024 

8192 

2 15 

2 17 

2 19 

最好的 f 

= 2 

2 

2 

2 

2 

2 

2 

2 

Mn) 

= 19.3 

18.5 

18.2 

18.1 

18.0 

18.0 

18.0 

18.0 


此处 ^( N ) 表示每排好一个项目所需的平均存储访问次数 


的 N ) = 




( 8 ) 


当 N —% 时它是有限的，如果取 p = 2和 M >#， 则平均的排序时间实际上是 
O ( iV ) 而不是 NlogN 阶的。这个方法是对多重表插入（算法 5.2.1 M ) 的一个改进， 

后者实质上是^ = 1的情况。对于一个部分地用表排好序的文件的最后重排，习题 
12给岀 MacLaren 的一个有趣的方法。 

也有可能使用算法 5.2 D 和习题 5.2-13 的方法来避免链接字段，以便除了记录 

本身所需要的空间外，仅仅需要 0(#) 个存储单元。如果输入记录是均匀分布 
的，则平均排序时间同 A 『成比例。 

W.Dobosiewicz 通过使用 MSD 优先的分布排序，直到达到短的子文件为止，同 
时限制分布过程以确保前 M /2 堆接受25%和75%之间的记录[参见 Let ¬ 
ters 7(1978) ，1 〜6; 8(1979)，170〜 172]; 这确保对均匀键码排序的平均时间为 

O ( iV ) 而最坏情况为 0( NlogN ) 0 他的论文激励了许多其它的研究者来设计新的 
地址计算算法，其中最有启发性的可能就是下面由 Markka Tamminen 给出的2级 
卞案 \ J , Algorithms 6(1985) , 138 — 144] :假定所有键码都是区间 [0. .1) 中的分数。 
通过把键码 K 映射到箱 LKN /8」， 把 N 个记录分布到 LiV /8」 个箱子。然后假设箱々 
接受了 N k 个 记录； 如果通过直接插入来对它排序，否则通过一个类似 Ma ¬ 
cLaren 的分布 + 插入排序 ，将其排序到 M 2 个箱中，其中 M 2 义 10 N k 。 Tamminen 证 

明了下列值得注意的 结果： 


定理 T 每当键码为独立随机数，其密度函数 f ( x ) 有限且对于 0< x < l ， 它们 
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是黎曼可积时，则存在一个常数 T ，使得刚才描述的排序方法平均说来最多实施 TN 
个操作（常数了不依赖于/)。 

证明参见习题18。直观地说，第一次分布到 N /8 个堆将发现/近似为常数 
的 区间； 然后第二次分布将使预期的箱大小近似为常数。 ■ 


在由 P . M . Mcllroy , K . Bostic 以及 M . D . Me 11 roy [ Computing Systems 6(1993), 

5 〜 27] 所撰写的一篇很有启发的文章中，描述了几个不同版本的基数排序，它们经 
过很好地调整，适合于对很大的字符串数组进行排序。 


习题 

► 1 . [20] 习题 5.2-13 的算法说明，对于仅有 N 个记录（以及 M 个计数字段）而不是 2 iV 个记 
录的区域，怎样来做一个分布排序。这能引出一项对于表1中说明的基数排序算法的改进吗？ 

2. [13] 算法 R 是一个稳定的排序方法吗？ 

3. [25] 说明为什么在算法 H 中，虽然堆 0 可以是空的 ，但 B 0 TM [0] 指向钩起的队中的头一个 

记录。 

► 4. [23] 算法 R 把 M 个堆链接在一起成为（先进先出）队，试剖析链接诸堆成为一些栈的思 
想（图33中的箭头将向下进行而不是向上，且 B 0 TM 表是不必要的）。 证明： 如果诸堆以适当的次 
序钩在一起，则有可能得到一个有效的排序方法，这能构成一个更简单或一个更快的算法吗？ 

5. [20] 为使程序 R 能对 8 个字节的键码而不是 3 个字节的键码排序，对它需要做些什么改 
动？假定&的诸最高位字节存储在单元 KEY + z _( l :5) 中，而 3 个最低位字节就像目前这样存在 

单元 INPUT + i ( l :3) 中，在进行了这些改动之后，该程序的运行时间是多少？ 

6.1M24] 设其中^是在一个随机基数排序扫描把 N 个元素分成 M 

个堆之后，恰出现有々个空堆的概率。 （ a ) 证明 g mN+l) (z) = g MN (z) + ((1- z)lM)g MN (z)o 

( b ) 使用此关系式求出这个概率分布的平均值和方差（作为 M 和 N 的一个函数）的简单表达式。 

7. [20] 试讨论算法 R 和基数交换排序（算法 5.2.2 R ) 之间的相似性和区别。 

► 8. [20] 正文中讨论的基数排序算法假定，被排序的所有键码都是非负的，当这些键码是以 

2的 补码或 1的 补码符 号表示的数时，对诸算法应做什么改动？ 

9. [20] 继续习题8,当键码是以 带正负号的量 表达的数时，对诸算法应做些什么改动？ 

10. [30] 设计一个使用链接内存的、有效的首先处理最高位数字的基数排序算法（随着子文 
件长度的减小，减小 M 并对非常短的子文件使用一个非基数的方法是明智的）。 

11. []6]表1中所示的16个输入数以41个反序 开始； 在排序完成之后，当然已无剩下的反 
序。如果省略第一次扫描，仅仅对十位和百位数字进行基数排序，则在文件中将存在多少个反序? 

如果省略第一次扫描和第二次扫描，则将存在多少个反序？ 

12. [24] ( M . D . MacLaren ) 假设仅将箅法 R 应用于实际的键码的前 P 位数字，则当我们以链 

接的次序来读它时，这个文件已接近于有序了。但是其前 P 位数字相同的那些键码可能仍是无 
序的。试设计一个算法，它适当地重新安排诸记录，使得它们的键码都成为有序的，… 

[提示 ：文件 被完全排序的特殊情况出现于习题 5.2-12 的答 案中； 有可能不影响效率而将它 
与直接插人组合起来，因为在文件中只保留了少量的反序]。 
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13 . [ 40 ] 请实现本节结尾处提出的内部排序方法，写一个子程序，它用 O ( iV ) 个时间单位对 
随机数据排序，且仅使用个附加存储单元。 

14. [22] 扑克牌序列 



可以在两次扫描中排序成从顶到底递增的次序 A 2 … J Q K ， 且只使用两个堆作为中间存储 ：把这 
些牌面朝下分成分别含 A 293 10 和 4 J 56 QK 7 8( 从底到顶）的 两堆； 然后把第二堆放在第一 
堆的上面，翻过来使这些牌面朝上，把这些牌分成两堆 ， A 2 3 4 5 6 7 8,9 10 Jf Q K 。 把这两堆组 
合在一起，让它们面朝上，你就大功告成了。 

证明上边的纸牌序列不可能在两次扫描中排序成为从顶到底的递减次序 K Q J -2 A , 即使 
你使用多达三个堆作为中间存储也不行。（处理必须总从纸牌的顶部进行，当它们被处理时，把这 
些纸牌翻成面朝下。由顶到底相当于图中的自右到左 h 

15. [ M 25] 当所有纸牌必须面朝上而不是面朝下地处理时，考虑习题14的问题。于是，可用 
一次扫描把递增次序转换成递减次序。问需要多少次扫描？ 

16. [25] 试设计把 w 个字母的字母表上的串^…^，排序成为词典次序的一个算法。该算 

法的总运行时间应当是 Oim + n + N )， 其中 N = I I + … + I I 是所有串的总长度。 

17. [25] 在由 Tamminen 提出的二级分布排序（参见定理 T ) 中，为什么类似 MacLaren 的方法 
被用于第二级而不是第一级上？ 

18. [ HM 26 ] 试证明定理 T 。 提示： 首先证明当把 MacLaren 的分布十插入算法应用于对于0 
其概率密度函数满足 fU )< B 的独立随机键码时，平均说来，它做 O ( NB ) 次运算。 

For sorting the roots and words 

we had the use of 1100 lozenge boxes , 

and used trays for the forms . 
—GEORGE V . WIGRAM (1843) 

5.3 最优排序 

既然我们已经分析了内部排序的大量方法，现在应转来考虑一个更广泛的问 
题：什 么是进行排序的最好 方法？能否对可能达到的极大排序速度给岀极限、使得 
一 个程序员无论如何灵巧也不能超过它呢？ 

当然，排序并没有什么最好的方式。因为若想达到这一目的，首先就必须精确 
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地定义什么叫“最好”，但是，又不存在一种最好的方式来定义“最好”。在 4.3.3 小 
节、 4.6. 3小节和 4.6. 4小节中，曾经讨论过算法理论最优性的类似问题，其中考虑 
了高精度的乘法和多项式的计算。在每种情况下，都有必要阐述“最好的”算法的一 
种相当简单的定义，以便给出使问题得以求解的充分的结构。而且在每种情况下， 
都遇到了如此困难的并因此尚未完全解决的有趣问题。对于排序来说情况也是这 
样，虽已经获得了某些非常有趣的发现，但仍然有许多困难的问题尚未解决。 

关于排序固有的复杂性的研究通常针对如下一些问题，即当把 n 个项目排序 
时，或者把 m 个项目和 n 个项目合并时，或者选择一个未编序的 n 个项目集合的第 
t 个最大者时，我们如何把对诸键码的比较次数极小化？ 5.3.1 小节、 5.3. 2小节和 
5.3.3 小节泛泛地讨论了这些问题，而 5.3.4 小节则在有趣的限制下讨论了类似的 
问题，其中所做的限制是：比较的形式必须事先予以基本固定。一些同最优排序有 
关的其它类型的有趣的理论问题，出现在 5.3.4 小节的习题中，以及在外部排序的 
讨论中 （5.4. 4小节， 5.4. 8小节和 5.4.9 小节）。 

As soon as an Analytical Engine exists , 
it will necessarily guide the future course of the science . 

Whenever any result is sought by its aid , 

the question will then arise — 
By what course of calculation can these 
results be arrived at by the machine 

in the shortest time ? 

—CHARLES BABBAGE (1864) 

5.3.1 极少比较排序 

将 n 个元素排序所需的键码比较要极小次数，显然为0,因为我们已经知道基 
数方法不做任何比较。事实上，有可能编写出能进行排序的 MIX 程序，使得它们不 
包含任何条件转移指令(见本章开始的习题 5-8)! 我们也已经了解了若干排序方 
法，它们实质上是以键码的比较为基础的，然而它们的运行时间实际上取决于其它 
的因素，如数据移动、簿记操作等。 

因此，计算比较次数显然不是测量排序方法有效性的惟一方式。但是，仔细地 
研究比较次数，无论如何是一桩乐事，因为这个课题的理论研究会给我们带来大量 
的洞察排序过程本性的有用知识，也会帮助我们增进在其它情况下解决可能碰到的 
更为普遍的问题的能力。 

为了排除完全不做比较的基数排序方法，如同本章开始时所讨论的那样，我们 
将把讨论局限于仅仅以键码之间的一个抽象线性次序关系“ <”为基础的排序技术。 
为了简便起见也把讨论限制在不同 的键码 的情况，从而对任何 K 和&的比较，只 

有两种可能的结果 :或者 ]<,•>&，或者 K 2 .< K , (至于把本理论扩充到允许有相等键 

码的一般情况，见习题3〜12。如果对于基于比较的方法没有限制，对于对整数进 
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行排序所需要的最坏情况的运行时间的上限，请参见 Fredman 和 WillardJ . Com ¬ 
puter and Syst . Sci . 47 (1993)，424 〜 436 ， Berr Amram 和 GalilJ . Comp . Syst . Sci . 54 

(1997)，345 〜 370 和 Thorup,SODA 9 (1998) ， 550 〜 555) 。 

通过比较进行排序的问题，也可以其它等价的方式来加以表达。如给定 n 个不 
同的砝码和一台天平，可以提出，当天平的每个盘子仅能容纳一个砝码时，按重量的 
大小顺序完全排列这些砝码所需要的最少称重次数问题。又或者，给出一项锦标赛 
中的一组 n 个选手，可以问及，假定选手们的实力可以线性地排序（没有平局）时，足 
以把所有竞赛者排名次的最少比赛次数的问题。 

所有满足上述限制的 n 个元素的排序方法，都可借助如图34所示的扩展二叉 
树结构来表示。每个内 部节点 （画作一个圆圈）包含两个下标、：/’，表示 K 同 

的一个比较。这个节点的左子树表示当 K- t < 时所需采取的动作，而右子树则表 
示当 X Z > K ; 时所要采取的动作。该树的每个外 部节点 （画作一个方框）包含 il ，2, 
…， n 丨的一个排列…〜，表示已经建立起次序 

K a < K a < ■•- < K a 

1 2 n 

这一事实（如果我们考察从根到这个外部节点的路径，则对于的〃-!个关 
系 K a < K a 中的每一个，都将是这条路径上某个比较^:七 + 1 或 a / + 1 ： a z 的结果）。 

i \ + 1 

因此图34表示首先比较和 K 2 的一个排序 方法； 如果1^>尺 2 ,则它就（通 

过右子树）去进行 K 2 同 K 3 的比较，接着如果 K 2 < K 3 ，则它就比较 Ki 和 K 3; 最 

后，如果1^>尺 3 ,便知道了 K 2 < K 3< X 10 一 个实际的排序算法通常也将在这个 

文件中移动键码，但我们在这里仅对比较感兴趣，所以忽略了所有的数据移动。在 
这株树中， K , 同\的比较总是意味 着原来 的键码同&，而不是在这些记录已经 

被重排之后当前可能占有文件的第 i 个和第7个位置的键码。 


第0层 

第 〖层 

第2层 

第3层 



图34对3个元素排序的一株比较树 



有可能做了多余的 比较； 例如，在图35中，没有理由比较3:1,因为和 

K 2 < K 3 意味着 Ki < K 3 。 没有排列能对应于图35中节点©的左子树，所以算法 
的该部分将永不执行！由于我们的兴趣在于把比较的次数极小化，故可以假定没有 
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做多余的 比较； 因此有一个扩展的二叉树结构，其中每个外部节点都对应一个排列。 
输入键码的所有排列都是可能的，而且每个排列都定义从根到外部节点的惟一路 
径；由此推知 ，在一株对72个元素进行比较而没有多余比较的比较树中，恰有 n !个 

外部节点。 

最好的最坏情况 自然出现的第一个问题，是找出使所做的最大比较次数为极 
小的比较树（后面将考虑平均的比较次数）。 

令 SU ) 为足以将 n 个元素排序的极小比较次数。如果一个比较树的所有内 
部节点都在<々的层次内，则显然在这树中至多可以有 Y 个外部节点。因此，令々 

= S ( n )， 就有 

n ! < 2 SU) 

由于 SU ) 是一个整数，我们可以重写这个公式以得到下界 

S ( n ) ^ rig ” ！"| (1) 

注意，按斯特林近似公式 

rig n ! 1 = n\gn — n/\n 2 + -^~lg n + 0(1) (2) 

所以大约需要 n \ gn 次比较。 

关系 （1) 通常称 为信息论下限 ，因为信息论专家将说在排序过程中获得了 lgn \ 
个“比特的信 息”； 每次比较至多产生一个“比特的信息”。像图34那样的树也称做 

“征询表”，它们的数学性质在 Claude Picard 的书 TT^oWe cfes Questionnaires ( Paris : 
GauthierVillars , 1965) 中已进行过探讨。 

在我们所见过的所有排序方法中，需要最少比较的3个方法 是：二 叉插入（参见 
5.2.1 小节），树选择(参见 5.2.3 小节），以及直接两路合并（参见算法 5.2.4 L )。 由 
习题 1.2.4-42 容易看出，二叉插入的极大比较次数是 

n 

B ( n ) - n \ Ign 1- 2 「 lg + 1 (3) 

而在习题 5.2.4-14 中给出了两路合并中的极大比较次数。在 5.3.3 小节中，我们 
将看到，取决于树是怎样建立的，树选择或者有和二叉插入相同的比较的上限，或者 
有和两路合并相同的比较的上限。在所有3种情况下，都达到了 n[gn 的渐 近值； 把 
SU ) 的下限和上限结合起来，就证明了 

lim = 1 (4) 

71—co n ig n 

于是我们有了一个 S (/ z ) 的近似公式，但是还希望得到更精确的信息。下表给 
出了对于小的 n , 上述量的准确值。 

n = l 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 

rin rz ! 1 = 0 1 3 5 7 10 13 16 19 22 26 29 33 37 41 45 49 

B ( n )=0 1 3 5 8 11 14 17 21 25 29 33 37 41 45 49 54 
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L ( n )=0 1 3 5 9 11 14 17 25 27 30 33 38 41 45 49 65 

这里 BU ) 和 LU ) 分别对应于二叉插人和二路表合并。对所有的〜可以证明 
BU)<L(72)( 见习题 2 )。 

从上表可以看出 S (4) = 5, 但 S (5) 可以是7或8。这把我们带回到 5.2 节开始 

处所叙述的一个问 题:什 么是对5个元素进行排序的最好方法？能否仅仅使用7次 
比较，对5个元素进行排序？ 

一 回答是肯定的，但找出这7步过程并不特别容易。开始时，就像用合并对 4 个 
元素排序一样，首先比较，接着 K 3 : K 4 , 然后把每对的较大者拿来比较，这就 
产生了一个可以被表示为 


b d 

/ 7 . (5： 

ace 

的图式，以示 a < b < d 和 c < 用这种有向图来表示元素之间的已知次序关系，是 
方便的。当且仅当在该有向图中有一条从工到的路径时: r 小于30。这时，我们 
把第5个元素 K 5 = e 插人到丨当中的适当位置，只需要比较两次，因为可以 

首先同6进行比较，而后同 a 或 d 进行比较，这有下列4种 可能： 



而且在每种情况下，都可以以另两次比较，把 c 插人小于 d 的剩下的元素当中。 H . 

B . Demuth 首先发现了对5个元素排序的这两种方法 [ Ph . D . thesis , Stanford Univer - 
sity (1956) ,41 〜 43] 。 

合并插入 Lester Ford , Jr 和 Selmer Johnson 发现了上述方法的一个令人满意 

的推广。由于它包含了合并及插人的各一部分，所以我们称它 为合并插入。 例如， 
考虑对21个元素的排序问题。开始先比较10对 ，…， K 19 : K 20 , 然 

后对这些对中10个较大元素进行排序，并利用合并插人。结果，得到类似于 （5) 的 
图形 


a l a 2 a 3 a 4 a 5 a 6 a l ^8 a 9 a 10 

rrrrrrrm • ⑺ 

b\ t>2 厶 3 办 4 厶 6 b 1 bs byo by\ 

下一步是在中插入6 3 ，然后把6 2 插人到小于 a 2 的其它元素当中；得到 

图形，上边一行的元素称为主链。利用 3 次比较（首先 6 5 同 c 4 进行比较，然后与 c 2 

或 c 6 比，等等）可以把插人到主链中的适当位置。然后~可以用另外3个步骤 
移人主链中，结果得到 （9)。 
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c } c 2 C3 C4 C5 a4 a s a 7 a 8 a 9 a\o 


_ 


(8) 


b4 bs b(y bj bg 




下一步是关 键的； 知道该做什么吗？仅仅利用4次比较，我们就把(而不是 
办 7 )插入到主链。然后，同样把 幻 o ,6 9 ^ 8 ，~，6 6 ( 以这个次序）插入到主链中的适当 

位置，每个至多使用4次比较。 

这里涉及的对比较次数的仔细计算，说明21个元素至多用10+ S (10) + 2 + 2 
+ 3 + 3 + 4 + 4 + 4 + 4 + 4 + 4 = 66步即可排序。由于 

2 65 < 21 ! < 2 66 


我们也知道，在任何情况下，少于66次将是不可 能的； 因此 

S (21) = 66 (10) 


(二叉插入要求74次比较）。 

一般地说， n 个元素的合并插入按如下方式 进行： 

i ) 对于 Ln /2」 个不相交的元素对，进行逐对比较（如果”为奇数，则剩下一个) 

ii ) 通过合并插入，将步骤0中找到的 Ln /2」 个较大的数进行排序。 


0 


iii ) 像在 (7) 中那样命名元素〜 ， fl 2 , … au /2」，& ，心， •••△ 


rw 2 i 


，其中 ^ 1 ^ ^2^ 




Ln/2J 


且对于 W 2」 ，;称和诸 a 为“王键码”。以下列次序用—^叉 


插入把诸6,插人到主链中，其中 ;> Tn /2 l 


龕 


b 3 ， b 2 ; b 59 b 4 ； b u ， b w ，…， b 6 ; … \ b 


， b w ， b t k 一、 



(ii) 


我们希望定义序列 （“， r 2 ,〖 3 ， r 4 , 




(1,3,5,11, 


# ■ 


)， 它以这样一种方式出现 


于 （11) 中，即 b 、， b t 


务_ 1 


、…， b t 


i 中的每一个都可以用至多^次比较插入到主链中。 


推广(7)， （8) 和(9)，我们得到图形 



其中达到并 包括〜 的主链包含 24-1 + ( 4 - 4 - 1 - 1) 个元素。这个数必然小于 

k - 1 

v ;我们最好的办法是把它置成等于 Y - 1，使得 

G-i + G （ 12) 

由于 q = l ， 为了方便起见我们可以置 h = l , 通过对一个几何级数求和得到 

t k =- 2 k - t k - x = 2 走 _ 2 石 — 1 + 4-2 =…= 
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2 是 _ 2 卜1 + …+ ( _ 1)^2° = (2々 + 1 + ( - 1)0/3 (13) 

(奇怪的是，这同一序列出现在我们为计算两个整数的最大公因子的一个算法分析 
中，参见习题4.5.2-36。） 

令 FU ) 是通过合并插入将”个元素排序所需要的比较次数，显然， 

F ( n ) = lnl 2 j + F ( in /2 j ) + G(T n /2^) (14) 

其中 G 表示包含在步骤 Ui ) 中的工作量。如果则通过部分求和我们 
有 


G ( m ) = - i ; - i ) + k(m - t k . x ) 二 km - ( t Q + Q + … + t k - X ) (15) 

)=1 



h 十 q + ••• + 4-i =l_2 々 + 1 / ： 3 」 

使得 ， w 3 ， w 4 ，•••）= (0，1，2,5，10,21 ，…）。习题 13 证明 

F ( n ) - F ( n — 1)= 々当且仅当 zv k < n ^ vu k + l 

并且后一条件等价于 


或者 

因此 



^k + 2 

< n ( 


k + I < [ g 3 n ^ k + 2 


(16) 

(17) 


F ( n ) - F(n — 1) 


lg 




(这个公式来自 A . Hadian ) [ Ph . D . thesis , Univ . of Minnesota (1969) ， 38 〜 42]) 
得出， F (/ z ) 有相当简单的表达式 


(18) 

由此 



(19) 


它十分类似于二叉插入的对应公式(3)。这个和的“封闭形式”岀现于习题14中。 

利用等式 （19) 不难构造 FU ) 的一 个表; 我们有 


n 

— 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

17 

lgw r 

— 

0 

1 

3 

5 

7 

10 

13 

16 

19 

22 

26 

29 

33 

37 

41 

45 

49 

F ( n ) 

— 

0 

1 

3 

5 

7 

10 

13 

16 

19 

22 

26 

30 

34 

38 

42 

46 

50 

n 

— 

18 

19 

20 

21 

22 

23 

24 

25 26 

27 

28 

29 

30 

31 

32 

33 



rig/zii 

— 

53 

57 

62 

66 

70 

75 

80 

84 89 

94 

98 

103 

108 

113 

118 

123 



F ( n ) 

— 

54 

58 

62 

66 

71 

76 

81 

86 91 

96 

101 

106 

111 

116 

121 

126 




注意对于和 20</ z <21, F ( n ) = rig n ! 1,所以我们知道对于这些〜合 

并插入是最 优的： 

S ( n ) = [\ gnl ~]= F ( n ) 对于 /z = 1 ，… ， 11,20 和 21 (20) 

Hugo Steinhaus 在他的精典著作 （ Mathernafica / Snapshots ( Oxford University 
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Press ，1950) 第2版的38 〜 39页中提出了求 SU ) 的问题。他描述了二叉插入的方 
法——对72个对象排序的最好方法是：先将前” -1 个排好序，再考虑第〃个；并 

且，他还推测，一般情况下，二叉插入是最优的。几年后 [Cakutta Math . Soc . Golden 
Jubilee Commemoration 2(1959) ， 323 〜 327] 他做报告时说，他的两个问事 S . Trybu - 
la ) 和 P . Czen ， “最近”已否定了他的推测，并且已经确定了 时的 S ( ti )。 Try - 

bula 和 P . Czen 可能已经独立地发现了合并插入的方法，但发表它的却是不久后 
Ford 和 Johnson[AMM 66(1959) ， 387 〜 389] 。 — 

在发现了合并插入之后，第一个未知的 SU ) 值是5(12)。表1显示12!十^ 
接近于2 29 ,所以不大可能只用29步对12个元素进行排序。因此 Mark Wells 进行 
了一次穷举查找（在一台 Maniac [[ 计算机上大约花了 60 h ) ，他发现 S (12) = 30 

[ Proc . IFIP Congress 65 2( 1965) , 497 ^ 498 ;Elements of Combinatorial ( Pergamon , 

1971),213 〜 215]。 于是证明合并插入过程对于72 = 12也是最优的。 

表1阶乘值的二进制表示 _ 

I -- o ) 2 = Ti ~~ I 

I (10)2 = 2! 

(110) 2 = 3! 
(11000) 2 = 4! 
(1111000) 2 = 5! 
(1011010000) 2 二 6! 
(1001110110000) 2 -7! 
(1001110110000000) 2 = 8! 
(1011000100110000000) 2 = 9! 
(1101110101111100000000)2 二 10! 
(10011000010001010100000000)2= 11! 

( 111001000110011111 10000000000)2 = 12! 
(101110011001010001100110000000000)2 = 13! 
(1010001001100001110110010100000000000)2 = 14! 
(10011000001110111011101110101100000000000)2= 15! 
(100110000011101110111011101011000000000000000)2= 16! 
(1010000110111111011101110110011011000000000000000)2 = 17! 
(101 10101111101110110011001010011100110000000000000000) 2 ^ 18! 
(110110000001010111001001100000110100010010000000000000000)2= 19! 
_ ( 10000111000011011001110111110010000010101101000000000000000000)2 = 20 ! 

* —个较深入的分析为了更仔细地研究 s ( n ), 我们更严密地考察例如 （5) 那 
样的偏序图式。在进行了若干次比较之后，可以借助于一个有向图来表示已经获得 
的知识。鉴于<关系的传递性，这个有向图不包含回路，所以可以把所有的有向边 
都画成从左 到右； 因此不妨去掉图中的箭头。于是 （5) 变为 



如果 G 是这样一个有向图，令了 （ G ) 是同 G —致的排列的数目，即，把整数 u ，2, 
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…，72 i 赋予 G 各顶点的方式种数，使得在 G 中每当有: r — 3^ 时，顶点 z 上的数均小 
于顶点 y 上的数。例如，同 （21) —致的一种排列是 a = l ,6=4,^ = 2,^ = 5 ,e = 3 0 
在 5.1.4 小节中已经对各种 G 研究了 : T ( G ), 其中我们发现，: T ( G ) 表示 G 可以被 
拓扑地排序的方式种数。 

如果 G 是在进 行了々 次比较之后可以得到的〃个元素的一个图，我们定义 G 
的 效率为 


、/ 2 k T(G) … 

(这个思想来自于 Frank Hwang 和 Shen Lin )。 严格地说，效率并不单独是图 G 的 
一 个函数，它依赖于一个排序过程中得到 G 的方式，但是在叙述时不妨略去这一 
点。在元素 f 和 7 之间进行了另一次比较之后，得到两个图 G : 和 G 2 , —个是对于 

情况&<仏的，一个是对于情况的。显然 

T ( G ) = T ( G t ) + T ( G 2 ) 

如果，则有 


T(G)^2T(G { ) 

F (r ^ = n ! = e(g)t(g) ^ ,, 

(Gl) 2^ +1 T(G!) _ 2T(G X ) < E ( G ) (23) 

因此，每次比较导致了一个具有更小或相等效率 的图； 不可能通过做进一步的比较 
来改进效率。 

当 G 全然没有有向边时，有 A =0 及： T ( G ) = 72!，所以初始的效率是1。另一 
个极端，当 G 是表示排序最后结果的一个图时， G 看起来像一条直线，且 T ( G ) = 

1。于是，例如，如果要寻找一个排序过程，在7步或更少的步骤内对 5 个元素排序， 
则必须得到其效率为5! /(2 7 x 1) = 120/128 = 15/16的线性图 •• • _ .。由此得 

出在排序过程中出现的所有图必然有的 效率； 如果出现任何低效率的图 ，则至 


少它的后裔之一也将是低效率的，而且最终将达到其效率的一个线性图。一般 

丄 b 

地说，这个论证证明，所有对应于 72 个元素排序过程的树节点的图，都必然有> 

n ! 12 1 的效率，其中 Z 是树的层数。这是证明 SU)>「lg 72!1的另一个方法，尽管 
这个论证同我们前面所说的实际上并没有多少不同。 

图 （ 21 ) 的效率为 1 ，因为： T ( G ) = 15, 并且 G 已经在3次比较中得到。为了看 
看下次应当比较什么顶点，可以形成比 较矩阵 



C ( G ) 



C 

d 



a 

b 

c 

d 

e 

0 

15 

10 

15 

11 、 

0 

0 

5 

15 

9 

5 

10 

0 

15 

9 

0 

0 

0 

0 

3 

、4 

8 

6 

12 

0 > 


(24) 
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其中 Q , 是通过把弧 j 加到 G 得到的图 Gi 的 TiG ,) 


o 


例如，如果比较 iC 和圪， 


则同 G 相一致的15个排列分裂成的匕 


6个和 K c < K e 的 


9个。后 


一 个图的效率是 15/(2 x 9) = |< g ，所以它不可能导致一个7步排序过程。下一 

0 10 

个比较必然是，以便保持的效率。 

当考虑图的连通分量时，效率的概念是特别有用的。例如考虑图 


a 


b 


d 


e 


G 


v 


z 


C 



9 


它有两个分量 


a 


b 


d 


G f 


v 


和 


G 


z 


C 



9 


由于没有连接和 G 〃的 有向边，所以它由完全在 G / 之内进行的某些比较和完全在 


G " 之内进行的其它比较形成。 
边，其中〃分别有/和: 


-般地说，假定 G 
个顶点，容易得岀 


G /0 G " 没有 G /和 G " 之间的有向 


T ( G ) 





/ 


TiG^TiG 


(25) 



因为 G 的每个一致的排列都通过选择 〆 个元素赋给然后独立地在 〃之 
内构造一致的排列而得到。如果在 g / 内已经进行了 〆 次比较，在 g " 内进行了 r 次 
比较 JBlJ 有基本的结果 


E ( G ) 


(n + n )\ 


2 r + r T ( G ) 




2 r T ( G / ) 




2 r T(G 




EiG^EiG^) 


(26) 


说明一个图的效率以一种简单的方式同其分量的效率有关。因此，我们可以限于考 
虑仅有一个分量的图。 


现在假定以和 G 〃是一 个分量的图，并且假设要通过比较 f 的一个顶点 



和 


G 〃的一个顶点^而把它们钩到一起。要知道这个效率是什么，为此，需要一个可以 
通过 


P 


Q 


< 


(27) 




表示的函数，定义为同图 


a\ 



a P 



m 



( 28 ) 


b\ / >2 


b n 
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一致的排列的数目。于是 > < 9 ) 等于 f W + 乘以一个概率数，该概率数是一个 

\ m n f \ m } 

m 个数集合的第 p 个最小者，小于独立地选择的 n 个数集合的第 ( 7 个最小者的概 
率。习题17证明，可以借助于二项式系数以两种方式表达 < q 、 

\ m n i 


(P 

\ m 


< 


Q 


n 


( m — p + n — 々、十々、 

0 <k<q\ m - p I \ p - 1 I 


(n - q + m - 7 W <7 — 1 + ^ 

\ n - q ) \ q - 1 J 


(29) 


(顺便说一句，从代数上看来，如下一件事决不是明显的 ：这些 二项式系数乘积的两 
个和居然是相等的）。我们也有公式 


1 P 

\ m 


< 





m + n 
m 



(30) 



(m + \ - p 〈 n + 1 — q 


m 


n 


(p C q )= I p < 卞 

\ m n I \ m ~ 1 n I 

为了确定起见，现在考虑两个图 


(P 


< 


V m 



P ^ m Aq = n 


m + n 

m 


(31) 

1 \ 

/ 

(32) 



通过直接枚举，不难证明 nGO =42 和 T ( G 〃）= 5; 所以如果 G 是以 〃作为 

分量的11个顶点的图，则按等式(25)，我们有 T ( G )= (^ 1 ) -42-5 = 69300 c 如果要 

知道对于每个 z 和 ； 有多少&<%，这是待列出的惊人的排列数目。但是，这个计算 
可以在不到一个小时之内用手算出，如 下：构 造矩阵 A(G0 和 A(G 〃） ，其中是使 
得 4 ( 或乂）等于々的或 G ") 的一致排列的个数。于是，其中&小于％的 G 的 

排列个数为 A ( G y ) 的 （ i ，/ 0 元素乘以再乘以 A ( G 〃） W ( j ， g ) 元素，对 
<7 和 l<g<4 进行求和。换言之，我们要构造矩阵乘积 A(GHA(G〃） T ，其中 

l p ,= (7 < 4 )° 这得到 
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^21 

16 

5 

0 

0 

0 

0、 


210 

294 

322 

329、 

0 

5 

10 

12 

10 

5 

0 


126 

238 

301 

325 

21 

16 

5 

0 

0 

0 

0 


70 

175 

265 

315 

0 

0 

12 

18 

12 

0 

0 


35 

115 

215 

295 

0 

0 

0 

0 

5 

16 

21 


15 

65 

155 

260 

0 

5 

10 

12 

10 

5 

0 


5 

29 

92 

204 

、0 

0 

0 

0 

5 

16 

21, 


、1 

8 

36 

120, 


'48169 

42042 

66858 

64031、 

22825 

16005 

53295 

46475 

48169 

42042 

66858 

64031 

22110 

14850 

54450 

47190 

5269 

2442 

27258 

21131 

22825 

16005 

53295 

46475 

、5269 

2442 

27258 

21131, 



3 

2 

0 

0 


0 

0 

2 

3 
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于是钩起 G ' 和 G 〃的 “最好”方法是把:^同 ％ 加以比较；当 工 〆 ％ 时有 42042 种情 


况，当时有 69300-42042 = 27258 种情况（由对称性，我们也可以比较 x 3 和 
: y 2 ， h 和： V 3, 或巧和 ： y 3 , 导出实际上相同的结果）。对于：得到的图效率为 


g^E(G/)E(G") 

它不是太 好的； 因此，在任何排序方法中把 〃钩 起来大概是一种坏的想法！这 

个例子的要点是，无须多余的计算就能够做出这样一个判断来。 

这些思想可用来独立地验证 Mark Wells 关于 S (12) = 30 的证明。从包含一个 

顶点的图开始，可以重复地尝试用这样一种方式对图 G 之一或对仏 ㊉ ^ 〃（一 对图 
分量 G / *G〃) 增加一个比较，使得两个由此得到的图只有 12 个或更少的顶点，且效 
率>12! /2 39 〜0.89221。只要这是可能的，就取所得到的最低效率的图，并且把它 
加到我们的集合中，除非两个图之一同构于集合中已有的一个图。如果得到的两个 
图有同样的效率，则就任意地选择它们之一。 一 个图可以由它的对偶（通过颠倒次 
序得到）来标识，只要我们考虑既把比较加到 〃上， 也加到 G' ㊉ 对偶 （ G 〃） 上。 
图36所示为以这一方式得到的一些最小的图及它们的效率。 

在这个过程结束之前，由计算机恰好生成了 1649个图。由于得不到图*~ * ~一 
. ，故可以得出结论， S (12)>29。 看来可以通过类似实验，花费 

不太长的时间以推导出 S (22)>70, 因为22! /2 7 G 〜0.952 表明必须有极高的效率 
才能在70步之内进行排序（在用12个或更少的顶点建立的1649个图中，仅有91 

个有这样的高效率）。 

Marcin Peczarski [Lecture Notes in Comp . Sci . 2461(2002) ， 785 〜 794] 扩展了 Wells 的 

方法，并证明 S (13) = 34;因此在这种情况下合并插入也是最优的。直觉地，似乎总有 
一天能够证明 S (16)< F (16)， 因为比起通过 S (10) 次比较对10个元素排序，然后用 
二叉插入逐个插入其它6个元素来， F (16) 所需的比较次数决不会更少。必然存在 
一种办法来改进这样一种方法！但是现在，确定地知道 F ( n ) 是非最优的最小情况是 
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图36在 S (12)>29 的一个长证明的最初几步中，得到的一些图和它们的效率 

72 =47:在通过 F (5) + F (42) = 178 次比较对5个和42个元素进行排序之后，使用由 
J . Schulte Morning [Theoretical Cdmp . Sci . 14( 1981 )，19 〜 37 ] 给出的方法，我们可以以 22 个 

进一步的比较，来合并这些 结果; 这就击败了 F (47)= 201 (Glenn K . Manacher[/ACM 26 
(1979)，441 〜 456] 以前已经证明，由 n = 189开始，有无穷多个 n 存在，使 S ( n )< F ( n )) 0 

比较的平均次数 至今已经考虑了一些过程，在它们的最坏情形尚可这个意义 
下它们是最 好的； 换句话说，已经寻道过“极小化极大”的过程，对于比较的极大次数 
而言它取极小。现在让我们寻找一个“极小化平均值”的过程，它对比较的平均次数 
取极小，假定输入是随机的，于是每种排列都是同等可能的。 

如图34所示，再次考虑一个排序过程的树表示。对所有排列取平均，在该树中 
的平均比较次数是 


2 + 3 + 3 + 3 + 3 + 2 n 2 

6- = 2 T 

一 般地说，在一个排序方法中，平均的比较次数是树的外部旙径长度餘以(回想 
一下，外部路径长度是从根到每个外部节点的距离 之和； 见 2.3.4. 5小节）。从 
2.3.4.5小节的一些考虑容易看出，如果一个具有 JV 个外部节点的二叉树在 g -1 
层有 2 9 - iV 个外部节点，而在 g 层有 2 N -2 Q 个节点，其中 q = [\ g N 1 (根在0层）, 

则此树具有极小的外部路径长度。因此极小的外部路径长度是 

(q - l )(2 q - N ) + q (2 N - 2 q ) = (g + 1 )N - 2 q (34) 

极小路径长度也能由另一种有趣的方式加以表征:当且仅当有一个数丨，使得一株扩 

展的二叉树的所有外部节点都出现在1层和1 + 1层上时，此树有极小的外部路径长 
度（见习题20)。 
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如果置 g = lg iV + L 其中0<0<1，则极小外部路径长度的公式 变为： 

N(\gN + 1 + d - 2 6 ) (35) 

函数 1 + 0 - 2 〃 如图 37 所示；对于0< 1，它虽是正的但非常小，决不超过 

1 - (1 十 In In 2 )/ln 2 = 0.08607 13320 55934 + (36) 

o.i 
0.0 

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 

图37 函数1 +沒_2 5 

于是，通过将 (35) 除以 N 得到的极小可能平均路径长度，决不小于 lg JV 也决不大 
于 lgiV + 0.0861( 这个结果首先由 A . Gleason 在1956年得出）。 

现在如果置则得到在任何排序方案中平均比较次数的下限。渐近地 
说，这个下限是 

\gn ! + 0( l ) = rzlgn - n/ln 2 + O(log n ) (37) 

设 FU ) 是由合并插入算法执行的平均比较 次数; 我们有 

n =12345 6 7 8 

下限 （34) =0 2 16 112 832 6896 62368 619904 

n \ F ( n ) -0 2 16 112 832 6912 62784 623232 

于是对于 n <5 合并插入在两种意义下都是最优的，但是对于 n =6,它平均有6912/ 
720 = 9.6 次比较，而我们的下限表明平均 6896/720 = 9.577777 …次比较是可能的。 

片刻的思考就可明白为什么这是正确的 ：在仅 仅做了 8次比较之后采用合并插入 
法，即可把6个元素的某些“幸运的”排列排好序，所以比较树在三个层次上而不是 
在两个层次上出现外部节点。这使得整个路径长度变长了。习题24说明有可能构 
造一个6元素的排序过程。这个过程在每种情况下都要求9或10次 比较； 由此得 
出，平均来说，这个方法比合并插入优越。而且在其最坏情况下，也不比合并插入更 
坏。 

当72 == 7时， Y . Cesari[Thesis ( Univ . of Paris , 1968 ) ， Page 37] 已经说明，没有排 
序方法能达到外部路径长度的下界 62368( 利用习题22的结果，有可能不用计算机 
来证明这个事实）。另一方面，他已经构造了一些过程，当 n =9或10时，它们达到 
下限(34)。 一 般地说，使平均比较次数极小化的问题，实质上比确定 S ( n ) 的问题更 
为困难。甚至可能对于某个，所有使平均比较次数极小化的方法在它们最坏的情 

况下要求进行 S ( n ) 次以上的比较。 



习题 

1.[20]分别用以下两种方法画出对4个元素进行排序的比较树 ：（ a ) 二叉插 入法； （ b ) 直接 
的两路合并法。这些树的外部路径长度是多少？ 


參 
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2. [ M 24] 证明 SUXLU )， 并求使等式成立的所有的 

3. [^ 22] 当允许存在相等的键码时，在对3个元素排序时有13种可能的 结果: 


K, 

— 

K 2 

— 

k 3 

K, 

— 

k 2 

< 

K 2 

Ky 

— 

k 3 

< 

k 2 

k 2 

— 

k 3 

< 

Ky 

Ki 

< 

k 2 

— 


k 2 

< 

K, 


k 3 

k 3 

< 

Ky 

— 

K 2 

K { 

< 

k 2 

< 


K, 

< 

k 3 

< 

k 2 

k 2 

< 


< 

K, 

k 2 

< 

k 3 

< 

K, 

K, 

< 

K l 

< 

k 2 

k 3 

< 

k 2 

< 













令/\表示在对 7 Z 个元素排序，而且允许存在相等项时可能的结果数目，使得 ， P 2 , P 3 ， P 4 , 

P 5 ,-)-(1, 1,3,13,75,541, -) o 证明生成函数 P ( z ) = 2 o 0 P〆 /”！ 等于 1/(2-?)。提示 •• 

证明 

^ ( n \ , 

P n = Zj , , Pn-k 当 w > 0 

k>^k I 

4 .[/ W 27]( O . A . Gross ) 确定当 《 — ⑺时，习题 3 的数的渐近值 [可能的提示 ：考虑 cotz 
的部分分式展开]。 

5_ D 6] 当键码可以相等时，每个比较可以有3种（而不是2种）结果 ： /<,<仏，/^ = K } , Ki > 

K j 0 对于这种一般情况下的排序算法，可用扩展的三叉树表示，其中每个内部节点有3株子 

树；左边、中间和右边子树分别对应于比较的3种可能的结果。 

试圆出一株扩展的三叉树，它定义了允许有相等键码的《 = 3时的排序算法。这株树应有13 
个外部节点，对应于习题3中列岀的13种可能的结果。 

► 6.[ M 22] 设每个比较如习题5中那样有3种结果，是对《个元素排序并确定诸键码 
之间所有等式所需要的最小比较数。正文中的“信息论”论证方法可以很容易地被推广，以证明 

其中是习题3和4中所分析的 函数； 但请证明，事实上 ^(„) = S( „)。 

7. [20] 在习题5对4个元素排序的意义下，当已知所有键码都是 0 或丨时 （ g 卩，如果 Ki< 

尺 2 和 K 3 < K 4 , 则有 = 和 K 2 = K 4 ), 画岀扩展的三叉树。假定2 4 种输入都是同等可能的， 

请使用极小的平均比较次数。注意找出所有存在的等式。例如，当你只知道 
时切勿停止排序。 

8-[26] 当已知所有的键码皆为-1、0或+ 1时，像习题7中那样，对4个元素排序，画出一 

株扩展的三叉树。假定3 4 种输入都是同等可能的，请使用极小的平均比较次数。 

9.[ M 20] 当像在习题7中那样，对”个元素进行排序，且又知道所有键码皆为0或1时，试 
问在最坏情况下极小的比较次数是多少？ 

► 10. [ M 25] 当像在习题7中那样，对 rz 个元素进行排序，且又知道所有键码皆为0或1时，试 
问作为 w 的函数，极小平均比较次数是多少？ 

U .[ HM 27] 当像在习题5中那样，对72个元素进行排序，且又知道所有键码都是集合丨1，2, 
…， ml 上的数时，令 S W U ) 是在最坏的情况下需要的极小比较数[于是，由习题 6， S „ U ) = 
S ( w )] ，试证明对于固定的 m ,当 00 时， Sjw ) 渐近于 n\gm + 0(1)。 

► 12. [ M 25] ( W . G . Bouricins , 约 1954) 假定可以出现相等的键码，但是只需要对元素 j 尺 2 ， 
…， 排序，找出排列 ai a 2 ，使得 K ai < K %< r " K a ;我们不需要知道心和化是否相等。 

12 n I I 4 1 

如果一株比较树在上述意义下对一个键码序列排序，当 K { = K } 时它在节点之下任取一 
分支（这株树是二叉的，而不是三叉的），则这种排序称为强排序。 

a ) 证 明：没 有多余比较的一个比较树对每个键码序列强排序，当且仅当它对每个无相同键码 
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的序列进行排序。 

b ) 证 明：当 且仅当一株比较树对0和1的每个序列进行强排序时，它也对每个键码序列进行 
强排序。 

13. [M28] 证明（17)。 

14. [M24] 试求和数 （19) 的一个封闭形式。 

15. [M21 ] 确定 BU ) 和 F ( n ) 的渐近特性，精确到 0 (bg ”）[提 示：证 明在这两种情况下 ， n 

的系数都包含图37中所示的函数]。 

16. [// M 26] ( F.Hwang 和 S . Lin ) 证明当 时 F ( t ? ) > rig rz ! 1。 

ll.[M20] 证明 （29)。 

18. [20] 如果过程的前些步如图36所示，并且它产生了具有效率12! /2 29 的线性图_ • 一 

. .，则这将证明 S (12) 二29吗？ 

19. [40] 以下列带启发性的探索规则进行实验，来判定在设计一株比较树时下次应比较哪一 
对元素 ：在对 ，…，进行排序的每一个阶段，对于令义是作为迄今所做比较的结 

果而得到的的键码数，％是已知为>&的键码数。按递增的 ujv , 对诸键码重新编号，使 

得 : ujv n 。 现在对于某个使 | u { v { + ! - I 取极小的 f ， 比较& (比起 

(24) 中所用的完全比较矩阵，本方法基于少得多的信息，但它在许多情况下似乎给出最优的结 
果）。 

► 20. [ M 26] 证明： 当且仅当存在一个数/，使得一株扩展的二叉树的所有外部节点都出现于 
第 I 层和第 / + 1 层上时（或许，所有的节点都在同一层上），该树有极小的外部路径长度。 

21. [M21] 一 株扩展的二叉树的高度是它的外部节点的极大层次数。如果 x 是一株扩展的 
二叉树的内部节点，令是： c 以下的外部节点数，并令/(^)表示 x 的左子树的根。如果 x 是 
外部节点，则令 t ( x ) = lo 试证一株扩展二叉树在具有相同节点数的所有二叉数中具有极小髙 

度，如果对于所有内部节点 x ， 

| t(x) -2/(/(o:))|<2 ri ^ (j)1 - ，（: 0 

22. [M24] 继续习题21，证明一株二叉树在具有同样节点数的所有二叉树当中，拥有极小外 
部路径长度的充分必要条件是对所有内部节点 x 

| - 2t{L{x)) | <2「 lgKx)1 — t(x) 和 I r (_ x ) - 2 f ( Z (：0) l < t(x) -2 Llg 心)」 

[例如，如果 K ： r ) = 67, 则我们必定有 r (/( x )) = 32,33,34或35。如果只要求树的高度取极小， 

则由以前的习题，我们可以有 3</(/ U ))<64]。 

23. [10] 正文中证明，任何对 n 个元素进行排序的方法，其平均比较次数至少是 rig ”！ 1〜 
n\gn, 但是多重表插入（程序 5.2.1 M ) 平均仅仅花费 0(77) 个时间单位。为什么能这样？ 

24. [27] ( C . Picard ) 试求一株使得所有外部节点都出现于10层和11层的对6个元素排序 

的树。 

25. [ II ]如果有一个对7个元素排序的过程，它达到等式 （34) 所预测的极小平均比较次数, 
则在13层上将有多少外部节点？ 

26 . [M42 ] 试求对7个元素进行排序的一个过程，它的平均比较次数取极小 。 

► 27. [20] 假设已知配置 X 1 < K 2 < X 3 , K 1 < K 3< K 2 ,< K 2 < K 1 < K 3， K 2 < K 3< K l , K 3 < 

K l <K 2f K 3 <K 2 <K 1 分别以概率 .01,.25,.01,.24,.25,.24 出现，试找出一株比较树，它以最 
小的平均比较次数对这3个元素排序。 

28.[40] 写出一个 MIX 程序，它在最少时间内对5个单字长的键码进行排序，并停机（关于 
基本规则见 5.2 节开头）。 
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29. [ M 25 ] ( S . M . Chase ) 设 q a 2 …〜是 11,2 ，…， w 1 的一个排列。证明任何一个仅仅以诸 

a 之间的比较为基础，来判断这个排列是偶还是奇（亦即它是否有偶的或奇的反序数）的算法，必 
须至少进行 n \ gn 次比较，即使这个算法仅有两个可能的结果亦然。 

30. [ M 23 ] (最 优交换排序） 在 5.2.2 小 节中定义的每一个交换排序算法都可表示为一株 

比较交 换树； 亦即一二叉树结构，其内部节点具有形式 i :)，〖<),它可解释为下列的 操作： “如果 
KK ， 则通过取这株树的左分支继续 进行； 如果& 则通过交换记录 f 和_;,而后取这株树 

的右分支继续进行”。当遇到一个外部节点时， — 必然为真。因此，一株比较交 

换树与一株比较树的区别在于：它既指明比较操作也指明数据移动。 

令 $(«) 表示在最坏的情况下，借助于一株比较交换树对 n 个元素排序所需要的极小比较 

交换数。证明 S e ( n )^ S ( n ) + n -1 0 

31. [ M 38] 继续习题30,证明5“5) = 8。 

32. [ M 42] 继续习题31，对于77>5的小的值研究 S e ( n ) 0 

33. [ M 30] ( T . N . Hibbard ) 阶为： r 和分辨度为谷的 实值的查找树 是一株扩展的二叉树，其 
中所有的节点都包含一个非负的实值，使得 “ i ) 在每个外部节点中的值都在每个内部节 
点的值至多为它的两个儿子值 的和； （ iii ) 根的值是 1。 这样一株树的 加权路径长度 ，定义为对于 
所有外部节点，节点的层次乘以它包含的值求和。 

证明一株阶为: r 和分辨度为1的实值査找树，在有同样的阶和分辨度的所有这样的树中，具 
有极小的加权路径长度的充分必要条件 是：在 （ ii ) 中的等式成立，且对于包含于兄弟节点中的所有 
值偶: r Q 和&，下列进一步的条件成立 ：（ iv ) 不存在整数々>0,使得:或^: 1 <2*<^0； 

+ 特别是，如果 I 是整数，则条件 （ v ) 意味着在这株树中的所有值都是 

整数，且条件 （ iv ) 等价于习题22的结果）。 

另外证明对应的极小加权路径长度是 • r 「 lg _ r 1 +「: r 1- 2~义 

34. [ M 50] 对于无穷多个72确定 SU ) 的精确值。 

35. [49] 确定 S (14) 的精确值。 

36. [ M 50] ( S . S . Kislitsyn ，1968) 证明或反 驳：任 何满足丁⑹>1的有向无回路图 G , 有两个 
顶点 w 和使得通过加上有向边 m — ^和 w — v ， 从 G 得到的有向图 Gi 和 G 2 是无回路的，并满 

足丁 （ G 2 )<2( 因此，对于某个 W 和 lTXGO / TXG ) 总介于 f 和" I ■之间）。 

*5.3.2 极少比较合并 

现在考虑一个相关的问题:什么是把 77 Z 个元素的一个有序集合和72个元素的 

一个有序集合合并的最好方法？以 

Ai < A 2 〈… < 和 B { < B 2 < ••- < B n (1) 

表示有待合并的元素，如同在 5.3.1 小节中那样，假定这 m ^ n 个元素是不同的。 
诸 A 可以 + 种方式出现于诸 B 当中，所以，已用于排序问题的论证立即告诉 

\ m I 

我们，至少需要 

ig( m + n )] ⑵ 

\ m / 

次比较。如果置 m = an 并设 n — %,而 a 是固定的，则斯特林近似公式告诉我们 
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lg ( a?1 + 72 = 72((1 + a )lg(l + a ) ~ a Ig a ) ~ 4~lg n + 0(1) (3) 

\ an / Z 

正常的合并过程，即算法 5.2.4 M ， 在它最坏的情况下，花费 m + n -1 次比较。 

令 M ( m , n ) 表示类似于 S ( n ) 的函数，亦即总是足以把 W 件事物同 w 个事物 
合并的极小比较次数。按我们刚才所做的观察 



lg 



对于所有 m y n ^ I 


(4) 


公式 （3) 说明这个下限可以如何远离上限。当 a = l ( 即 77 Z 二 72) 时，下限是2/2 - 


+ 0(1)，所以上下限两者都有正确数量级，但是它们之间的差可以任意大。 


当 a =0. 5 , 即 m = 时，下限为 

每 n (lg 3 - 香 ）+ 0( log 72 ) 

^ \ ^ / 

它大约是 lg 3 - y^0.918 乘上限。而且，随着 a 减小，这些界限就越离越远，因为 

标准的合并算法主要是对 m ^ n 的文件来设计的。 

当 m = n 时，合并的问题有相当简单 的解； 由此可知，是 (4) 的下界有问题，而不 
是上界。下列定理是由 R.L.Graham 和 R.M. Karp 大约于 1968 年独立地发现的。 


定理 M 当 ^时， M ( m ， m )=2 m — 1。 

证明 考虑把 Ai < … < A W 同…合并的任何算法。当它比较人: 马 
时，如果 i < j 取分支 A Z < B , ; 如果 i > j 取分支 A ;> 马。合并最终必须以配置 

jBi 〈 Ai 〈召2 < A 〗 〈^ A m (5) 

结束，因为这同所采取的所有分支一致，而且 2 m -1 个比较 B 1 ： A 1 , Ai ^ 2 , B 2 ： 
A 2 ，…，中的每一个都必须已经明显地做出，否则至少会有两个配置同已知 
的事实相一致。例如，如果 Aj 未与 B 2 进行比较,则配置 

< B 2 < Ai < A 2 *** < B m < A m 

无法与 （5) 相区别 。 I 


简单修改这个证明，就得出伴随的公式 

M(m , m + 1) = 2 m 对于 (6) 


构造下限定理 M 表明，“信息论”的下限 （2) 可以同真正的下限相距任 意远; 
因此，用于证明定理 M 的技术给了我们发现下限的另一个办法，这样一个证明技术 
通常被看做是制造一个敌手，一个试图使这些算法缓慢地进行的有害的人。当用于 
合并的一个算法比较 A ,: 巧时，这个敌手是这样确定比较的结 局的： 就好像他要使 

这个算法沿着较为困难的道路走下去。如同在定理 M 的证明中那样，如果能够发 
明一个适当的敌手，就能够确保，每一个有效的合并算法必须做更大量的比较。 
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我们将利用 受限的敌手， 它在确定某些比较的结果时，其权力是受到限制的。 
在一个受限的敌手影响下的一个合并方法不知道这些限制，所以它仍然进行必要的 
比较，尽管比较的结果已被预先确定。例如，在关于定理 M 的证明中，通过条件 （5) 
限制了所有的结果，然而合并算法不能利用这一事实来免去任何一次比较。 

在以下的讨论中，我们将使用的限制可应用于文件的左端和右端。左边的限制 
以下列符号 表征： 

•意为没有左边的限制。 

\意为所有的结论都必须同 A . KB , 一致。 

/意为所有的结论都必须同 A.yBr 一致。 

右边的限制以下列符号 表征： 

•意为没有右边的限制。 

\意为所有的结论都必须同 A m < B n —致。 

/意为所有的结论都必须同 A m > B n 一致。 

敌手有9种类型，以 AMp 来表示，其中 A 是一个左限制而^是一个右限制。例 
如，一个“ \ M \ ”敌手必须指出 A i < B J 和 A , 〈氏； 一个 “. M .” 敌手是不受限制的。 

对于某个小的 m 和 n ， 某些类型的受限制的敌手是不可能 有的； 当 7/ Z 二1时，我们显 
然不能有一个 “\ M /” 的敌手。 

现在让我们来构造用于合并的一个稍微复杂但非常难对付的敌手，它不总产生 
最优的结果，但它给出了包含大量有趣情况的下限。给定 7/ z 、 n ， 以及左边和右边的 
限制 A 和…假设要求敌手指出 A ; 或巧哪一个大。有6个策略可用来把此问题归 
结为较小的 m + n 的情况。 

策略 AU ， Z ) 适用于以及比如说糸< 巧， 而且要求随后 

的操作把^，…，同他，…， U 以及把丨 A a + 1 ，…， A 7 J 同以，…，合并。 
如果 p < k 和 9 >/，则比较所得的回答将为 ^^<5— 如果 p > k 和 9 </，则 
回答将是如果 p < k 和则它们将通过 U ，/ _1， A ，.） 敌手加以 处理; 

如果 p > k 和则通过 （ m -々，^ — ^[-/，.，^^敌手加以处理。 

策略 BU ，/) 适用于和 1</<> 比如说态<巧，并且要求随后的 
操作把 iAi ，…， AJ 同 iA ，…， B 丄以 及把 jA , + 1 ，…， AJ 同丨及 ，…，加以合并， 
约定 A &< B Z < A a + 1 ( 注意，氓出现于有待合并的两个表中。条件 Aa <^< 焱6 + 1 确 
保合并一个组不会给出有助于合并另一个组的信息）。因此，将来的比较如 
果 p ^ k 和将得到结果 A p <C 如果 p > k 和结果将为>馬；如果 

P < k 和 9 </，它们将通过一个（々，/，2，\ ) 敌手来 处理； 如果和^>/，则通过 
一个 （m _ k，n + l _ l ， l ， p ) 敌手来处理。 

策略 CU ， Z ) 适用于和比如说 A〆 巧，并且要求随后的 

操作把 iAi ，…，同 ㈤ ，…， BhI 和 iA *， …， AJ 同 iB z ，…，合并，约定 B t . x 

<4<私（类似于策略 B ， 交换 A 和 B 的作用）。 
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策略 A / U ，0 适用于•和 j < Z < r 2。 比如说皋 > 马 ，并且要求把 
iAi ，…， AhI 同丨 A ，…， B 山和 iA ^ …， 同 iB 出，… ，氏丨合并（类似于策略 

A) 0 

策略 WU ， Z ) 适用于和』< Z </2。 比如说 A z >马，并且要求把 
| A 7 . ，…， Anl 同丨 A ，…， 私丨和 i A 。 …， AJ 同丨私 ，…，合并，且有 
AJ 类似于策略 B )。 

策略 CTU ，/) 适用于 f 和比如说 A z > Bj ， 并且要求把 
Ai ，…， Aj 同 IBi ，…， B ,. 丨以及 i Ai ，…， A w 丨同 iB / + ! ，…， 1 合并，且有 B L < A k < 
B / + 1 (类似于策略 C )。 

由于这些限制，上述策略不可能用于下列 情况： 

策略 当出现下列情况时必须被省略 

AU ， 1 )， B( 々， l )， C(k ， l) A = / 

A^l,/), caa) A= \ 

A ( 772 , Z) , B(m , l), C(m ，/) P~t 

A " (^ , n ) , B' (k ， n) ， C' (k ,n) p= \ 

令表示合并的极大下限，它是通过上述的某个敌手得到的。当第 
一个比较数是 A ,: 马时，每个策略在其适用的场合给了我们关于这9个函数的一个 

不等式，如下： 

A ( k ， I ) •• XMp (m ,n) > 1 十 AM . (k , l — 1) + . Mp (?/z — 々，打 十 1-/); 

B (k ， l) •• XMp (m ,n) ^ 1 + AM \ (k y l) + / Mp (m — 十 1 — / ); 

C(k ，/) : XMp ( 772 , n ) ^ 1 + AM/ (k y L - 1) + \ Mp (m + i - k , n 1 — L); 

A' (k 9 1) : XMp (?7 z , 72) > 1 十 AM ■( 々 一 1, Z ) + . Mp (m + l~k f n — l); 

B' (k f l) ： XMp (m ,n) ^ 1 + AM \ (k - 1,1) + / Mp (7« + l- 々 ，n + l-/); 

C ( ^ : XMp (m , n) ^ 1 + XMl (^ , Z) + \ Mp (m + 1 ~ k ， n - I 、。 

对于固定的 i 和^;，这个敌手将采取一个策略，该策略使得当々和/位于由 i 和 j 所 
允许的范围时，由所有可能的右端给出的下限取极大值；于是，定义 AM〆 777, rz ) 为 
对于和所取的这些下限的极小值。当 m 或 rz 为0时， AM〆 ttz ， 

”）为 0 o 

例如，考虑 m =2和 n =3 的情况，而且假设我们的敌手是不受限制的。如果头 
一个比较是 A ! ，则这个敌手可以采取策略"（1，1)，此时需要. M . (0,1) + 

• M. (2 ，2) = 3个进一步的比较。如果第一个比较是则这个敌手可以采取 

策略 B ( l ，2), 此时需要 . M \ (1,2) +/ M . (1,2) =4个进一步的比较。不管首先比 
较哪一对 A z : 巧，这个敌手总可以保证至少必须进行3次进一步的比较，因此 . M . 

(2,3) =4。 

用手来进行这些计算是不容易的，但是一台计算机却可以相当快地做出 入 M P 
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函数表。它有某些明显的对称性，例如 

IM • ( m ， n ) = . M \ ( m , n ) = \ M . ( n f m ) = . Ml (n y m ) (7) 

借助于它，我们可以把 9 个函数减少到只有 4 个 ： M .( m , n )， lM .( m ， n )， lM \ 
( m , n ) VA 及 lMl ( m ， n )。 表1 指出对于所有 w ， 72 <10 所得到 的值； 我们的合并的 
敌手已经以这样的方式定义，即 

• M .( m ， n ) < M ( m ， n ) 对于所有 m ， rz >0 (8) 

这个关系包括定理 M 作为一个特殊情况，因为当 | 772 _ 72 | <1 时我们的敌手将使用 

该定理的简单策略。 

现在考虑为 M 函数所满足的某些简单 关系： 

M{m , n ) = M(n ,? n ) (9) 

M(m y n ) ^ M(m ,n + 1) (10) 

表 1 由“敌手”得到的对于合并的下限 


• M . ( m ， 乃 ） 



1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

1 

2 

2 

3 

3 

3 

3 

4 

4 

4 

2 

2 

3 

4 

5 

5 

6 

6 

6 

7 

7 

3 

2 

4 

5 

6 

7 

7 

8 

8 

9 

9 

4 

3 

5 

6 

7 

8 

9 

10 

10 

11 

11 

5 

3 

5 

7 

8 

9 

10 

11 

12 

12 

13 

6 

3 

6 

7 

9 

10 

11 

12 

13 

14 

15 

7 

3 

6 

8 

10 

11 

12 

13 

14 

15 

16 

8 

4 

6 

8 

10 

12 

13 

14 

15 

16 

17 

9 

4 

7 

9 

11 

12 

14 

15 

16 

17 

18 

10 

4 

7 

9 

11 

13 

15 

16 

17 

18 

19 


/ M \ (m , n ) 

1 -oo223333444 

2 -cxd 244556677 

3 -oo 246678889 


IM • (m ， n) 

^123456789 10 


1 

2 

2 

3 

3 

3 

3 

4 

4 

4 

1 

3 

4 

4 

5 

5 

6 

6 

7 

7 

1 

3 

5 

6 

7 

7 

8 

8 

9 

9 

1 

4 

5 

7 

8 

9 

9 

10 

10 

11 

1 

4 

6 

8 

9 

10 

11 

12 

12 

13 

1 

4 

6 

8 

10 

11 

12 

13 

14 

14 

1 

4 

7 

9 

10 

12 

13 

14 

15 

16 

1 

5 

7 

9 

11 

13 

14 

15 

16 

17 

1 

5 

8 

10 

11 

13 

15 

16 

17 

18 

1 

5 

8 

10 

12 

14 

15 

17 

18 

19 





IMK 

m y 





1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

3 

3 

4 

4 

4 

4 

5 

5 

5 

1 

3 

5 

5 

6 

6 

7 

7 

8 

8 


4 

— OO 

2 

5 

6 

8 

8 

9 

10 

10 

11 

5 

— OO 

2 

5 

7 

8 

10 

10 

11 

12 

13 

6 

— oo 

2 

5 

7 

9 

10 

12 

13 

14 

14 

7 

— oo 

2 

5 

8 

10 

11 

12 

14 

15 

16 

8 

一 oo 

2 

6 

8 

10 

12 

13 

15 

16 

17 

9 

— oo 

2 

6 

9 

10 

12 

14 

16 

17 

18 

10 

— oo 

2 

6 

9 

11 

13 

15 

16 

18 

19 


1 

4 

5 

7 

7 

8 

9 

9 

9 

10 

1 

4 

6 

7 

9 

9 

10 

11 

11 

12 

1 

4 

6 

8 

9 

11 

11 

12 

13 

14 

1 

4 

7 

9 

10 

11 

13 

14 

15 

15 

1 

5 

7 

9 

11 

12 

14 

15 

16 

17 

1 

5 

8 

9 

11 

13 

15 

16 

17 

18 

1 

5 

8 

10 

12 

14 

15 

17 

18 

19 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 


123456789 10 n 
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5.3 最优排序 


M(k + m y n ) ^ M(k y n ) + M(m y n ) (11) 

M ( m ， n ) 《 max ( M ( m y n - 1) + 1, M(m - 1, ^ ) + 1) 对于 m > 1 ， n ^ 1(12) 
M(m f n ) ^ max ( M ( m ， n -2) + 1， M(m - 1, n ) +2 对于 m ^ 1, n ^ 2 (13) 

如果首先比较，由通常的合并过程即得出关系 （12)。 通过首先比较 A 1 ' B 2j 
即可类似地导出关系 （13); 如果，则需要 M ( m,n -2) 次进一步的比较，但 
如果 A〆 * ，则我们可以把 A , 插入到它适当的位置，并把 iA 2 ，…， A m l 同，…， 

合并。推而广之，通过首先比较 Ai :私，而且如果 A { < B k 便使用二叉查找，我 
们可以看出如果和我们有 

M(m y n ) ^ max ( M(m y n - k ) + 1 ， M ( m - 1, n ) + 1 4 - 「 lg 々~|) (14) 

结果是，对于所有 m ,77^10, M(m , n ) = . M . Cm ，??）， 所以表 1 实际上给出了合并 
的最优值。这可以通过使用 （9) 〜 （14) 以及在习题8、9和10中给出的（777,77) = (2, 

8)，（3,6)和（5,9)的特殊构造得到证明。 

另一方面，我们的敌手并不总是给出最好可能的 下限； 最简单的例子是 m 二 3, 
77 = 11，这时 . M . (3, 11) =9,但是 M (3， ll ) = 10。 为了看出在此种情况下这个“敌 

人”在哪儿“出错”，我们必须研究他做此判断的 理由； 进一步检查揭示出，如果 （ f ， j ) 
參(2,6)，则这个敌手可以找到一个要求10次比较的 策略; 但当（^) = (2,6)时，没 
有策略胜过策略 A (2,4)， 使下限成为1 + . (2,3) + . M . (1，8) =9。通过把 

以卜义^同丨仏…^&丨以及丨义^同旧^…^^合并来完成整个合并是必要的但 

不是充分的，所以在这种情况下下限并不是最佳的。 

类似地，可以证明 . M .(2,38) = 10,而 M (2,38) = 11，所以我们的敌手并没有 

好到足以解决 m =2的情况。但是有一类无穷多个值，对于这类值来说它是杰出 
的： 

定理 K M(m , m + 2) = 2 m + 1 对于 m >2 

M(m 9 m + 3) =2 m + 2 对于 m ^4 
M (77 i ， m +4)=2 m + 3 对于 m >6 

证明事实上可以以 . M . 代替 M 来证明这个 结果； 对于小的 m ， 这些结果已 
经通过计算机得到，所以可以假定 m 是足够大的。也可以假定，第一个比较是 A ,: 

.，其中 7 tz /2] o 如果 j <2‘则使用策略 A '( f ， i ) ,对用归纳法， d <4，得到 

. M . ( m y m + d ) ^1 + . M . ( z — 1, z ) + . M . (m + 1 — i ， m + d — i )= 

2 m + d - 1 

如果 j > i , 则使用策略 A ( i，i + 1)， 对 m 用归纳法，得到 

. M . ( m ， m + d ) ^1 + . M . (i 9 i ) + . M.(m — i ， m 十 d — i )= 


2 m + d — 1 
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第 5 章排序 


定理 K 的前两部分由 F . Hwang 和 S . Lin 于1969年得到 。 Paul Stockmeyer 和 

Frances Yao 许多年后证明，在这3个公式中显示的模式一般都成立，即由以上的策 

略所导出的下限足以得到值 M ( m，m + d ) = 2 m + d - l ， 其中 m^ld - 2 
[ SICOMP 9 (1980)，85 〜 90]。 

上限 现在来考虑 M ( m ，7 z ) 的 上限； 好的上限对应于有效的合并算法。 

当 m — \ 时，合并冋题等价于一^个插入问题，而且 B !，••*, 之中有72 + 1个位 

置是 A ! 可以插人进去的。对于这种情况，容易看出，具有 n + 1个外部节点的任何 

一株扩展的二叉树均对应于某个合并方法的树（见习题2)。因此，可以选择一株最 
优二叉树，它实现信息论的下限 

1 +Llg ”」= M ( l , n ) = Tig (n + 1)] (15) 

当然，二叉查找 （6.2.1 小节）是达到这个值的一个简单方法。 

m = 2的情况是极为有趣的，但也困难得多，不过它已经被 R . L . Graham , F . K . 
Hwang 以及 S.Lin 完全解决了（见习题11 ， 12 ， 13) ;他们证明了一般的公式 

M (2， n ) = lg + 1) + lg n + 1) (16) 

我们已经知道，当 m = n 时，通常的合并过程是最优的，而当 m = l 时，颇为不 

同的二叉查找过程是最优的。我们需要的是居中的方法，它把通常的合并算法同二 

叉查找组合在一起，并且保留两者最好的特性。公式 （14) 提出了下列合并算法，它 
是由 F . K.Hwang 和 S . Lin[SICOMP 1(1972) ，31 〜 39] 给 出的： 

算法 H (二叉合并） 

H 1 • 如果 m 或72为0,则停止。如果772 〉 n ，则置 l_lg ( w / w )」 并转向步骤 

H 4。 否则置 Ug ( )」。 

H 2. 比较 A w : i _ 2 、如果 Am 是较小的，则置 rz — 72 - 并返回步骤 HI 。 

H 3. 利用二叉查找（它恰恰要求£次进一步的比较），把 A w 插人到它在 

1氏 + 1 -/，…， 氏丨中的应有位置。 如果々 是使得私 < A W 的极大值，则置 

m — 和72—々。返回 H 1。 

H 4. (步骤 H 4 和 H 5 同 H 2 和 H 3 类似，只是交换了 m 和 n ， A 和 B 的作用） 

如果 B „ < A m +! - 2 £ ，贝 U 置 m — m ~2 L 并返回步骤 HI 。 

H 5. 插人凡到它在诸 A 中的应有位置。如果 A 是使得 A & 〈艮的极大值，则 

置772 — 々和72 — 7 Z - 1，返回 H 1 。 ■ 

作为这个算法的一个例子，表2示出3个键码丨087,503,512|同13个键码 

1061，154,…，9081合并的 过程； 在这个例子中，需要进行8次比较。在每 

步当中被比较的元素以黑体示出 。 
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087 503 512 061 154 170 275 426 509 612 653 677 703 765 897 908 

087 503 512 061 154 170 275 426 509 612 653 677_| 703 765 897 908 

087 503 512 061 154 170 275 426 509 612 653 677 703 765 897 908 

087 503 512 061 154 170 275 426 509 612 _ 653 677 703 765 897 908 

087 503 061 154 170 275 426 509 512 612 653 677 703 765 897 908 

087 503 061 154 170 275 426 509_ 512 612 653 677 703 765 897 908 

087 061 154 170 275 426 503 509 512 612 653 677 703 765 897 908 

087 061 I 154 170 275 426 503 509 512 612 653 677 703 765 897 908 

061 f087 154 170 275 426 503 509 512 612 653 677 703 765 897 908 

设 H ( m ， n ) 是 Hwang 和 Lin 算法所要求的极大比较数。为了计算 ， n ) ， 
可以假定在步骤 H 3中々= 72且在步骤 H 5 中々= m ，因为通过对爪用归纳法，我 
们将证明对所有的 - l , H(m _ 1, ” + 1 ) 。于是当时， 

对于 

H(m ， n) = max ( M(m f n - 2 l ) + l y H(m - l , n ) + t + 1) (17) 

以 2 n + e 代替 n ，（ = 0 或1，得到，对于 2^ z <7 i <2 卜 1 m , 

H(m ,2n + 6) = max[H( m ,2n + (: - 2 t + l ) + 1 ， H(m - 1,2n + () + t + 2. 

对 w 用归纳法，得出 

H ( m ，2 n + () = H ( m ， n ) + m 对于 = 0 或 1 (18) 

容易看出，当时 ， H ) = 仍+ n _ 1;因此重复地应用 （18) 即得一^般 

的公式 

H(m ， n) = m + Vnj 2 L \ - 1 ^ tm 对于 = Llg ( n / m ) J (19) 

这意味着，对所有的 n^m 有 H(m ， n)< ： H(m，n + 1)，证实了我们关于 H 3 这一步 

的归纳假设。 

置 m = an 和沒 = lg ( n / m ) _ Z，i n — 00 时，给出 

H(an , n) = an(l + 2 e — 6 — lga ) + 0(1) (20) 

由等式5.3.1-(36)我们知道，1.9139<1 + 2〃- 沒 <2 ;因此， （20) 可以同信息论的下 

限 （3) 相比较， Hwang 和 Lin 已经证明（见习题 17) 



Hwang-Lin 的二叉合并算法并不总是给出最优的结果，但它有很大的长处，即 
它编写程序相当容易。当 m = l 时，该算法归结为“非中心的二叉查找”，当 m^n 
时，它归结为通常的合并过程，所以它是这两个方法之间的一种卓越的折衷。而且， 
在许多情况下它旱最优的（见习题16)。 F . K.Hwang 和 D . N . Deutsch[JACM 20 
(1973) , 148 〜 159 ] , G . K . Manacher , \JACM 26( 1979 ) ， 434 〜 440 ] ， 以及最突出的是 
C . Christen[POCS 19(1978) ,259 〜 266] ， 已经找到改进的算法。 Christen 的合并过 
程，称为向前测试-向后插入，当 n/m — ⑺时比算法 H 节省大约 m /3 的比较，而且当 

5m - 3^ n ^7 m + 2[ m 偶]时, Christen 过程达到下限 . M . ( m 9 n ) = \_(llm + n — 3) / 
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5 章排序 

4 Jo 因此，在这样的情况下（以及值得注意地，在我们的对手下限情况下也是），它 
是最优的。 

公式 （18) 提示， M 函数本身可以满足 

M(m y n ) ^ M(m , L 7 i /2 j ) + m (22) 

这实际上是真的（见习题19)。 M ( m ， n ) 的表提示了其它若干似乎正确的关系，诸 

如 

M(m + \ , n ) ^1 + M(m y n ) ^ M(m y n + 1) 对于 772^72 (23) 

M(m + l,n + 1) ^2 + M ( m , n ) (24) 

但这些不等式尚未得到证明。 


习 


1. []5]试求 M ( m ， n ) 和 5.3.1 小节中定义的函数 S 之间有趣的关系[提示 ：考虑 S(m + 

n)]o 

► 2. [22] 当 m = l 时，没有多余比较的每个合并算法都定义了一株具有” 1 + 1个 

外部节点的扩展二叉树。试 证明： 反过来，每一株具有《 + 1个外部节点的扩展二叉树都对应于 
m = l 的合并算法。 

3. [M24] 证明对所有 n y .M.{l,n) = M{\ y n)o 

■ _ 

A .[ M 42 ] 对所有 m 和 + 吗？ 

\ m f 

5. [M30] 证明 ( m ，” + l )。 

6. [M26] 定理 K 中所述的证明要求计算机验证大量不同的情形，如何能大大地减少这种 
验证的数目？ 

7. [21] 证明（11)。 

► 8. [24] 通过找出一个算法，它使用至多6次比较把2个元素同其他8个元素合并起来，来 
证明 M (2,8)<6 o 

9. [27] 证明至多用7步便可以把3个元素同6个元素合并起来。 

10. [33] 证明 5 个元素可以在至多 12 步中同 9 个元素合并起来[提 示： 根据敌手的经验提议 
先比较，然后如果 Ai < B 2 ，则比较 A 5 : A 8 ]。 

17 19 

11■[ 嬉 0KF.HwangS.Lin) 对于々 >0, 令心 = 2^ >glk+i = 2 k y ，使得 U 0 ， gu 2 , 

m mm Ih ■ 

… ）= (1，1，2,3,4,6,9,13,19,27,38,54,77, …）。证明，在最坏的情况下，它花费 t 次以上的比较 
把2个元素同 g , 个元素 合并； 但是2个元素可以在至多 i 步中同 仏-1 个元素合并[提 示： 证明， 

如果"=心或” 且如果要在/次比较中合并 IAmAz 丨和丨 ，…， 艮丨 ， 则第一步以比 

较八 2 ^为最好]。 

5 / - 1 

12.[ M 2 i ] 设尺„(^，_/)是为对不同的对象|^，/?,乂 1 ，又 2 ，一，；^丨排序所需要的最少比较数， 
给定关系 
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5.3 最优排序 


/?， x t < x 2 < - < 


a < X； 



> X 


n 


(当 i > n 或时，条件《<足 + 1 或/?>；^ 一 ，为空，因此 R n { n,n 

显然，只„(0,0) = 0。证明 ：对于 0<2<n,0<j<n，i+j>0, 


M (2, n )) 0 




+ min( min max ( R n (k - 1 , j ) , R n . k {i - k ， j )) ， 

KkKi 




13. [A/42] (R.L. Graham) 说明习题 12 中递推关系的解可以表达如下，根据规则 


G ( x ) 


如果0 < x < 


5 



2 

1 


+ 


8 


G ( 8 jt ~~ 5 ) 如果 < ：r < 


3 


4 


2 


G (2 x - 1) 


10 


如果 f < x < 1 
如果1 < X < oo 


对于 0<X<OO, 定义函数 G ( j：)o 


见图38,由于义（込））=仏0, 2 )以及由于1?“0,_;)=妨（1,^；)，可以假定 l < i « n 0 令 p 


lg 2j,^ = Llg jJ,r = Llg w 」, 并令 f 


n 


-2 r + l 0 于是 


Rn (^ yj ) = P + Q + S n (i y j ) + T n ( i ， j ) 



图 38 Graham 的函数（见习题 13) 


其中 S „ 和八为 O 或 1 的 函数: 

S n ( i ， j ) 二 


当且仅当 （？< r 或且 


2 r > u ) 


T n ( i , j ) 


当且仅当 p < r 或0 > 


2 r 


-2 


且 i — 2 r ^ v ) 


其中 u ^2 p G ( tl 2 nK 


v 




2 


-2 


G ( tl 2 


-2 


这可能是需要解决的最麻烦的递推关系 


14. [41 ] (F. K. Hwang ) 对于是>3设 h 3k = 


43 

28 


2 是」 — 


\ y h 


3 务 + 


I = + 3 • 2^ 3 ，九34 + 2 = 


17^ 



2" - 



」，且设初始值被定义成使得（/^，幻，/^,…）： （1 ,1,2,2,3,4,5,7,9,11,14,18,23,29, 
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38,48,60,76 …）。证明对所有 t y M ( 3 f h t )>t 和 iU (3 ，\ - 1)<〖，由此确定对于所有 n y M ( 3 , n ) 
的准确值。 

15 . [ 12 ] 二叉合并算法的步骤 H 1 可能要求对于，计算 Llg ( Wm )」。 说明要如何做，才 
能避免使用除法或对数，来方便地计算它。 

16. [ M ] 当时，对于什么样的 m 和 n ， Hwang 和 Lin 的二叉合并算法是最优 
的？ 

17. [ M 25] 证明 （21) [提示 ：这个 不等式不是非常严格的]。 

18. [ M 40] 分析二叉合并所使用的平均比较次数。 

► 19. [23] 证明 M 函数满足(22)。 

20 . [20 ] 证明如果对所有 w <7 z ， M ( m ，7 z + lXM(w + l ， rz )， 则对所有 m^n f M(m f n + 1) 

^1 + M(m , n)o 

21 . [ M 47 ] 证明或否定 （23),(24)。 

22 . [ M 43 ] 分析为合并 m 个事物和 rz 个事物所需要的极小平均比较次数。 

23 . [層 ]( E . Reingold ) 设1 A 1 , A 2 ,…， 丨和| & ， 是各包含”个元素的集合。 

试考虑一个箅法，它试图仅通过比较元素的相等性，来测试这两个集合的相 等性。 于是，此算法提 
出了一个问题， g 卩：对 某个 i 和吗？”，根据答案的不同，此算法将产生不同的分支。 

试通过定义一适当的敌手,证明任何这样的箅法，在它最坏的情况下至少必须进行+ 72(«十1) 
次比较。 

24. [22] ( E . L . Lawler ) 把 m 个元素同个元素合并的下列算法，所需要的极大比较次 
数是多少？ “置 r *~ Llg ( W 爪）」，并使用算法 5.2.4 M 合并, A 2 , ••- , A m 和 By , B 2 .2 r , …， , 

其中 q ^ lnlrjo 然后把每个 A ; 插入它在私当中的正确位置。” 

► 25. [25 ] 假设（％ ) 是具有非递减的行和列的一个 m X rz 矩阵:对于< m + …;对 
于证明，如果所有的比较都在： T 和某个矩阵元素之间进行，则是 
为确定一个给定的数 x 是否在矩阵中出现，所需要的极小比较次数。 

#5.3.3 极少比较选择 

当我们寻找最好的过程以选择〃个元素的第 z 个最大者时，出现了一类类似的 
有趣问题。 

这个问题的历史可回溯到 C . L . Dodgson 牧师关于草地网球锦标赛的有趣的（尽 
管是严肃的）试验，它出现在 St . James,Gazette ,1883年8月1日，5 〜6 上 。 Dodgson 

当然比 Lewis CarroU 更为有名，他关心的是在网球锦标赛中过去（而且现在仍然如 
此)颁发奖金的不公平方式。例如，考虑图39中标号为01，02,…，32的32位选手 
之间进行的一场典型的“淘汰赛”。在决赛中，选手01击败了 05,所以显然选手01 
是冠军而且他应获头等奖。但在如下的问题上却岀现了不公正，即选手05通常获 
得二等奖，尽管他可能不是第二好的选手。在这场锦标赛中，即使你比一半的选手 
都要差，却仍有可能获得二等奖。事实上，如同 Dodgson 所注意到的，第二个最好的 
选手当且仅当他在锦标赛开始时和冠军处于不同的两半中时才能获二 等奖； 若 
有2” 个选手，则这以的概率出现,所以不是第二好的选手几乎有一半 
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的机会可获得二等奖！如果半决赛的失败者（图39中的25和17号选手）竞争三等 
奖，则第三个最好者接受三等奖的可能性更小。 


第5轮(决赛) 



第4轮 
第 3 轮 

第2轮 

第1轮 



01 03 02 








29 30 05 06 11 









20 18 





01 07 03 10 02 08 04 09 25 28 26 2 7 29 32 30 31 05 15 06141116 12 13 1 724 20 23 18 1 921 22 


图39 32位选手的淘汰赛 

因此， Dodgson 提出用传递性排次序的方法来设计一个锦标赛，以确定真正的第 
二和第三好的选手（换言之，如果选手 A 击败选手 B ， 而选手 B 击败选手 C , 则假定 
A 将击败 C )。 他设计了一个过程，在这个过程中，允许失败者进一步比，，直到确 
实知道他们劣于其他三个选手为止。图40所示为 Dodgson 方案的一个示例，它是 
有待同图39配合进行的补充比赛。该方案尽量把迄今具相等记录的选手配对比 
赛，并且避免两个已被同一个选手击败的选手进行比赛。例如，在第一轮中，16败 
于11和13败于12;在第二轮中16败于13,由此就取消了 16,因为已经知道他低于 
11，12和13 了。在第三轮中，不允许19同21进行比赛，因为他们俩都为18所击 

败，故我们不能自动地取消19对21的失败者。 


第 9 轮 
第8轮 

第 7 轮 
第6轮 
第 5 轮 

第 4 轮 
第3轮 

第2轮 



02 20 12 06 




07 29 


03 26 11 18 







20 21 12 19 


06 27 






03 04 26 30 



19 22 27 28 23 24 31 32 07 10 08 09 13 16 U 15 

图40 Lewis Carroll 的草地锦标赛（同图39合在一起进订 ） 


假如我们能说 Lewis Carol 1的锦标赛确实是最优的，那就好了。但可惜情况并 
非如此。他在1883年7月23日的日记中指出，他用了大约6个小时来排方案，他 
觉得“现在我们的（网球)赛期已过去了这么多，因此比起写出来，倒不如立即就进行 
比赛更好些。”他的过程中要做比需要的还多的比较，而且该过程没有足够精确地描 
述出来，从而可以被称为一个算法。另一方面，从并行计算的观点看，它有某些颇为 
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有趣的方面。而且对于一个网球锦标赛说来，它似乎是一个卓越的计划，因为他取 
得了某些戏剧性的 效果; 例如，他确定，两个决赛选手应该不参加第5轮比赛，而参 
加第6轮和第7轮中进行的附加比赛。但是比赛的组织者大概认为这个提案太逻 
辑化了，因此看来从未试用过 Carroll 的系统。而代之使用一个“种子选手”方法，来 
把最好的选手分在树的不同部分 。 

在1929〜1930年的数学研讨会中 , Hugo Steinhaus 提出了当共有>2个选手 

时，为确定在一次锦标赛中的第一和第二最好的选手，所需要的网球比赛的极小场 
次问题 。 J . Schreier [ Mathesis Polska 7 (1932) ，154 〜 160] 给出了至多需要 n ~ 2 + 

rig d 场比赛的一个过程，基本上使用了我们称做树选择排序方法中的前两个阶段 
同样的方法(参见 5.2.3 小节，图23)，避免涉及- oo 的多余比较。 Schreier 还宣称, 

n - 2 + T lg 72] 是最好的，但他的证明如同 J . Slupecki 试图另给的证明 [ Colloquium 

Mathematicum 2(1951) ，286 〜 290] —样是不正确的。32年之后， S . S . Kislitsyn 最后 
发表了 一 个正确的但相当复杂的证明 [Sibirskiy Mat . Zhurnal ,5(1964) ,557 〜 564] 。 

令 V , (72) 表示为确定72个元素的第£个最大者所需要的极小比较次数， 

n , 并令是为了确定最大者，第二个最大者，…，以及第£个最大者等全部^ 
个元素所需要的极小比较次数。由对称性，我们有 

V r ( n ) = V n +1 ^ t ( n ) (1) 

而且显然有 

V ：( n ) = W . Cn ) (2) 

KU ) (3) 

W n (n) = W n _ Y (n) = S(n) (4) 

在引理 5.2.3 M 中我们已经发现 

V { ( n ) = 72-1 (5) 

实际上，关于这个事实，有一个惊人地简单证明，因为在一次锦标赛中，除了冠军外， 
每个选手都至少输了一场！通过扩展这一思想，并使用一个“敌手”，就可以不太困 

难地证明 Schreier-Kislitsyn 定理。 

定理 S 当72>2时， V 2 U ) 二 \¥ 2 (72) = 72-2+「4 n] 0 

证明假设有 n 个选手参加一次锦标赛。这个锦标赛通过某种给定的过程确 
定了第二个最好的选手，并令~是输了 ； 场或更多场比赛的选手数。于是，比赛的 

总场数是 q + + …。如果不同时确定出冠军来的话，我们不能确定第二个 

最好的选手(参见习题2)，所以用以前的论证说明 a ^ n - lo 为完成这个证明，将 

证明定有某个比赛结果的序列，使得 a 2 >[lg nl -1。 

假设在锦标赛结束时，冠军已经迎战（并击败了 ）/> 个 选手； 这些人当中有一个 
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是第二个最好者，那么这些人中的其他人就另外至少输了一场，所以1。因 

此可以通过这样一个方法来完成这个证明，即通过构造一个敌手，该敌手以这样一 
个办法来制定比赛的结果，即冠军至少必须同 rig N 1 个其他人较量。 

设此敌手在下列情况下断言 A 比 B 更好， S 卩 ：如果 A 以前未败过，而 B 至少输 
了一次，或者如果两者都未败过而此时 B 比 A 赢得少些。在其它情况下，敌手可以 
做出同某个偏序相一致的任何判断。 

考虑整个锦标赛的结果，这次锦标赛的角逐已经为这样一个敌手所决断。即当 
且仅当 A = B 或 A 强过第一个击败 B 的选手时我们说 “ A 强于 B ” （按这个说法，对 
每个选手来说，只有第一次败绩是关键的，失败者随后的比赛则被忽略。按照敌手 
的规则，任 何首先 击败另一个人的人都必须以前未败过）。由此得出，赢得头 P 场的 
人，在这 > 场比赛的基础上至多强过个选手（这对于 p =0 是显然的，而对于 p > 
0,第 f 次比赛是迎战以前败过了的或至多强过2*- 1 个选手的某个人）。冠军强于 
每个人，所以他必须至少赢得了 rig nl 场比赛。 ■ 

在极小化极大的意义下，定理 S 完全解决了求第二个最好选手的问题。事实 
上，习题6说明，当预先已知诸元素的一个 任意偏 序时，对于求出一个集合的第二个 
最大的元素所需要的极小比较次数，有可能给出一个简单的公式。 

如果 t>l 如何？ 在上边引证的文章中， Kislitsyn 考虑过 r 的更大的值并证明 

W L ( n ) < 72 - ^ + ^ rig 对于 n >， (6) 

对于 〖=1 和 z = 2,已经看到，在这个公等式实际上 成立； 对于〖=3,它能稍加 
改进（见习题21)。 

我们将说明 树选择 的前，个阶段至多需要 n - r + + 次比较，并 

忽略涉及-⑺的所有比较，以证明 Kislitsyn 定理。有意思的是，由等式 5.3.1-(3), 

当 Z = 72 以及当 Z 二 n - 1时， （6) 的右边等于 B ( 72); 因此，树选择和二元插人在排序 

下给出同样的上限，尽管它们是十分不同的方法。 

令 a 是具有72个外部节点的扩展二叉树，并令 7 T 是丨1，2, …， Tli 的一个排列。 

以对称的次序从左到右地把 Tf 的元素放进外部节点，并像在树选择中那样按淘汰锦 
标赛的规则填入内部节点。当得到的树被施以重复的选择操作时，它就定义了一个 
序列 C ,,- 丨， - 2 ，…， C 1 ，其中是当兀素 j + 1已被 _ 00 代替时，为把兀素 j 引到树 

的根部所需要的比较次数。例如，如果 a 是树 


(7) 
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而且如果 7 T = 5 3 1 4 2,则逐次得到如下的树 



如果 7 T 换成3 1 5 4 2,则序列 将是2110。谷易看出 Ci 总是零。 

令 / i ( a ，7 T ) 是由 a 和 7 T 确定的多重集合丨 - 2,^-2 ，…， C 1 丨。如果 



而且如果元素1和2不同时在 ，中 出现，也不同时在 a 〃中 出现，则容易看岀对于适 
当的排列 7 T ' 和 7 T " 


"(a ， 7T) = + 1) UJ tt") + 1) tU 10 } (8) 

其中 （p + 1) 表示对"的每个元素加1得到的多重集合（参见习题7)。另一方面，如 
果元素1和元素2都岀现于 c /中 ，则有 

"(a ， 7T ) 二 ("(〆 ， 〆）+ £) ttl ("(〆’ ， 7T") + 1) tu |0| 

其中 y + £表示把 1 加到 y 的某些元素而把0加到其它元素得到的一个多重集合。 
当1和2都出现于 a " 中时 ，类似 的公式成立。我们说多重集合~ 高于 p 2 , 如果 

和 M 两者有相同的元素个数，而且对于所有的的第々个最大的元素大于或 

等于 M 的第々个最大的 元素； 而且，在下述意义下，对于所有的排列 7 T ， 定义 pU ) 

为最高的 //( a ，7 T ) : 对所有的7^^«)髙于/^(«，70，而且对于某个 ^,^( a ) = /.( a , 
； r )。 上边的公式表明 

"(□) = 必，"（0) = ("(<0 + 1)出 （"（ a ") + l ) ttl |0| (9) 

/ // 

a a 

因此，是从〃 的根到它的内部节点的所有距离的多重集合。 

只要读者遵循上面的思路，现在就能看出，我们已为 KisUtsyn 定理 (6) 的证明做 
好了 准备； 确实 (72) 小于或等于72 -1 加 pU ) 的 Z -1 个最大元素，其中 a 是在 

树选择排序中使用的任何树，当 

p ( a ) = | Llg 1」 ， l_lg 2 」，…， |_lg ( w _ 1)」 

=|「lg 2~|- l，「lg 3~|- 1 ，…， rig 7 z "| - ll (10) 

时，可以取 a 为具有 72 个外部节点的完备二叉树(参见 2.3.4.5 小节）。当考虑这个 
多重集合的〖-1个最大的元素时，就得到公式(6)。 
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Kislitsyn 定理给出了对于 W , U ) 的一个好的 上限； 他注意到 V 3 (5) = 6< W 3 
(5) =7,但是他未能得到比起对于 W ( rz ) 来对于 V〆 72) 的一个更好的上限。 A . Ha - 
dian 和 M . Sobel 发现了使用替 代选择 ，而不用树选择（见 5.4.1 小节），来解决这个 

问题的一个办法。他们的公式 [ Univ . of Minnesota , Dept , of Statistics Report 121 

(1969)] 

V t ( n ) ^ n - t + (t - l ) Tlg (^ + 2- r)l n ^ t (11) 


与 （6) 中 W ,(72) 的 Kislitsyn 的上限类似，只是在 （6) 的和中的每项都已换成最小的 
项。 

通过使用下列构造，即可证明 Hadion 和 Sobel 定理 （11): 首先建立对于 n~t + 
2个项目的一次淘汰锦标赛的二叉树（这花费 n-t + 1 次比较）。最大的项目大于 
n-t + 1 个其它项目，所以它不可能是第 f 个最大的。不管它出现在树的哪一个外 
部节点处，都以保留的 （-2 个元素之一代替它，在由此所得的72 -〖+ 2个元素中， 
找出其最大的 元素； 这至多要求 「 lg ( n +2- i )1 次比较，因为仅仅需要重新计算树中 
的一条路径。对于保留的每个元素重复这个操作，总共重复 i -2 次。最后，以 -oo 
代替当前最大的元素，并确定剩下的 n + 1- t 个元素中的最 大者； 这至多要求 「 lg(n 
+ 2-01-1 次比较，而且它把原来集合的第〖个最大元素引向树的根。把这些比 
较加起来就得到（11)。 

在关系 （11) 中，每当 n + 1- t 给出更好的值时(如同 rz = 6 d =3 时那样），我们 
在式子右边当然将以 n + 1- t 来代替“奇怪的是，这个公式对于 V 7 (13) 给出了 

比对于 V 6 (13) 更小的限。对于 n <6，（ ll ) 中的上限是精确的，但当72和 i 变大时， 

有可能得到对于 ％ U ) 的好得多的估计。 

例如，下列漂亮的方法（由 David G.Doren 给出）可以用来说明 V 4 (8)<12。 设 
元素为 Xi ，…， X 8; 首先比较&:又 2 和 X 3 ： X 4 以及两个胜利者，并对 X 5 : X 6 和 X 7 
: X 8 以及它们的胜利者也同样进行比较。重新标出这些元素，使得 Xi < X 2 < X 4 > 
X 3 ， X 5 < X 6 < X 8 > X 7 , 然后比较 X 2 : X 6; 由对称性，假定 X 2 < X 6 , 于是我们有配置 



(现在 A 和 X 8 已脱离比赛，我们必须求 1 X 2 ，…， X 7 | 的第三个最大者）。比较 X 2 : 
X 7 并丢弃较 小者； 在最坏的情况下，我们有 X 2 < X 7 , 而且必须求出 




的第三个最大者。这可在另外 V 3 (5)-2 = 4 次比较中完成，因为实现 V 3 (5) = 6 的 
(11) 的过程是通过比较两个不相交的元素对开始的。 
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这种类型的其它技巧可用来产生表1所示的 结果； 尚未发明一般的方法。1996 

年， W . Gasarch ， W . Kelly 和 W . Pugh [ S/GACT News 27 ,2 (June 1996) ， 88 〜 96] ，利用一 
个计算机查找，证明对于 V 4 (9)= V 6 (9) 和 V 5 (10)= V 6 (10) 所列的值是最优的。 

当 f 很小时 ， David G . Kirkpatrick 已经得到了对于选择问题的相当好的下界 

\JACM 28(1981) ，150〜 165] ，如果+ 1)/2,我们有 

V t ( n ) ^ n t - 3 + Drlg n f + (12) 

；=o 1 + J 

在他的博士论文 [ U . of Toronto , 1974] 中 ,Kirkpatrick 还证明了 

v 3 ( n ) < n +1 + rig 1 ^! ( i 3) 

对于所有整数 n 的 lg I 74%，这个上限匹配下限 （12)， 而且它至多比 （12) 超过1。 

Kirkpatrick 的分析使人很自然地去猜测，对于所有 n >4, (13) 中的等式成立，但是 
Jutta Eusterbrock 发现令人惊讶的反例 V 3 ( 22 ) = 28 [Discrete Applied Math . 41 

(1993), 131 〜 137]。 对于较大的 i 值， S . W . Bent 和 J . W . John 发现改进了的下限 
(参见习题 27): 




n + m — 


2fV^l, 


m 



(14) 


这个公式特别证明了 

V⑽> (1 十 aLg 丄 + (1 - a)lg 1 )” + 0 (^fn ) (15) 

\ a I — a / 


表 1 对于 V / n ) 已知的最好上界 


n V { (n) V 2 (n) 


1 0 

2 1 1 

3 2 3 

4 3 4 

5 4 6 

6 5 7 

7 6 8 

8 7 9 

9 8 11 

10 9 12 


V 3 (n) V,(n) V 5 (n) V 6 (n) V 7 (n) V 8 (n) V 9 (n) V [0 (n) 


2 

4 3 

6 6 4 

8 8 7 5 


10 

10* 

10 

8 

6 




11 

12 

12 

11 

9 

7 



12 

14 

14^ 

14 

12 

11 

8 


14* 

15 

16" 

16“ 

15 

14 M 

12 

9 


* 在这些情况下，习题 1(H2 给出改进等式 （ 11 〉 的构造。 

* * 见 K. Noshita, Tra^s. o/ the IECE of Japan ， E59 ， 12( DEC. 1976) ,17 — 18 
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一个线性方法当 72 是奇数且〖=「72/21时，第 i 个最大的（以及第 r 个最小的) 

元素称做中值。按照 （11) ，我们可以在 〜 j wig 72次比较中求出72个元素的中值; 

尽管只要求少得多的信息，但这大约只比排序快一倍。若干年来许多人一直致力于 
寻求当 f 和 n 很大时对于 （11) 的改进。最后，在1971年， Manuel Blum 发现了仅仅 
需要 0 (wlog log w ) 个步骤的一个方法。 Blum 解决这个问题的途径，提示了一类新 
技术，它导致了 R . Rivest 和 R . Tarjan 给岀的下列构造 [ J . Comp , and Sys . Sci . 7 

(1973),448-4611： 


定理 L 当 n >32 时，对于 Kt < n ， V t ( n )<15? i -163。 

证明当 n 很小时，这定理是显然的，因为对于32〈^<2 10 有 V ,( n )< S (7 z ) 

<10 n <1572 - 163 o 通过加上至多13个虚构的“-元素，对于某个整数^>73, 

我们可以假定 72=7(2(7 + 1 )。 下列方法可以用来选择第〖个最大的 元素： 

步骤1把这些元素分成每组7个元素的2^ + 1组，对每组排序。这至多花费 
13(2 g + l ) 次比较。 

步骤2求在步骤1中得到的 2(7 + 1 个中值元素的中值，称它为： r ：。 通过对 g 
用归纳法可证，这至多花费 V g + l (2 q + 1 X 30(7-148 次比较。 

步骤3不同于： c 的 n -1 个元素现在已经分成为3个集合（见图 41) : 

4 q + 3个已知大于： r 的元素（区域 B ); 

4 q + 3个已知小于： c 的元素（区域 C ); 

个元素，它们同： r 的关系是未知的（区域 A 、 D) d 


区域 A 区域 B 



区域 C 区域 D 


图41 Rivest 和 Tarjan 的选择箅法 （g 二 4) 

通过进行知次附加的比较，我们就能确切地说出区域 A 和 D 中哪些元素小于 x 
(首 先把工 和每个三元组的中间元素做比较）。 

步骤4对某个现在找到了 r 个大于: c 的元素和/2 -1- r 个小于: r 的元素。 
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如果 i = r + 1， 则 x 是 答案； 如果 r + 1， 则需要求 r 个大的元素中第〖个最 大的; 
如果+ 1，则需要求 n ~ l ~ r 个小元素中的第 U - 1 - r ) 个最大的。要点是 r 
和 tz - 1 - r 两者都小于或者等于 10 g + 3( 区域 A 和 D 加上 B 或 C 的大小）。因此， 
通过对用归纳法可证，这个步骤至多需要 15(10^ + 3) - 163次比较。 

比较的次数至多为 

13(2 g + 1) + 30(7-148 + + 15(10 g + 3) - 163 = 15(1切 -6)-163 

由于我们是从至少 14 g - 6个元素开始的，证明就完成了。 ■ 

定理 L 证明了选择总可在“线性时间”内完成，即证明了 ％ U ) = OU ) D 当 

然，这个证明所使用的方法稍微有些粗糙，因为它丢弃了步骤4中好的信息。关于 
这一问题的研究已经得到更漂亮的上限；例如， A . Schonhage , M . Paterson & N . Pip - 

penger [ J ^ Comp . Sys . Sci . 13 ( 1976) ， 184 〜 199] 已经证明，为求平均值所需要的极大 

比较次数至多是3?2 + 0(〃 log n ) 3/4 0 关于一个下限和更新的结果的参考文献，参 
见习题23。 

平均数 除了把极大比较次数极小化外，我们还可以要求一个算法，对于随机 



图42选择丨乂 1 ,乂 2 ，又 3 ，乂 4 ,又 5 ，乂 6 |的第二个最大者的过程，平均使用6冬次比较。 


每个“对称的”分支和它的兄弟相同，只是名字按某种适当的方式排列过。 
当已知 X 是第二个最大者和&是最大者时，外部节点包含 

写在每个外部节点下的数字表示通向这个节点要做多少次排列 
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次序下的对象，使得平均比较次数极小化。和通常一样，这个问题要比极小化极大 
值问题难 得多； 确实，甚至对于 t =2 的情况极小化平均值问题也尚未解决 。 Claude 

Picard 在他的 Th 6 orie des Questionnaires (1965) 一 书中提到了 这个问题，而 Milton 
Sobel 做 了深入的剖析 [ Univ . of Minnesota , Dept , of Statistics，Reports 113 及 114 
( November , 1968 ); Revue Franscaise d ， Automatique, Informatique et Recherche 

Operationnelle 6 ， R -3( 1972 年 12 月 ），23 〜 68]。 

Sobel 构造了图 42 的过程，它平均仅仅使用 6 +次比较就求得了 6个元素的第 

二个最大者。在最坏的情况下，需要进行8次比较，而这比\/ 2 (6) = 7 要坏； 事实上， 
D . Hoey 所做的一个穷尽的计算机查找已经证明，对于这个问题的最好的过程，如果 


限定至多做7次比较，则平均使用6 _次比较。于是，在同时地极小化极大值和极 


小化平均值两种意义下，似乎没有求6个元素的第二个最大元素的最优过程。 

令％(〃）表示为求”个元素的第 r 个最大者所需要的极小平均比较数。如同 


D . Hoey 所计算的那样，表2示岀了对于小的的一些精确值。 

表2进行选择所需的极小平均比较次数 



R . W . Floyd 在1970年发现，^个元素的中值，平均说来，可以仅仅通过 n + 

0( rz 2/3 log n ) 次比较求得。几年后，他和 R . L . Rivest 改进了这个方法并且构造了一 
个优美的算法来证明 

V t (n) ^ n + min ( t , n - r ) + 0( a / n\og n ) (16) 

(参见习题 13 和 29)。 

根据对 £ = 2 的 一 种 Sobel 构造的推广 ， David W . Matula [ Washington Univ. 

Tech. Report AMCS -73-9(1973)] 用另一种方法证明 

y t ( n ) ^ n + ^Tlg ^1(11 + In In n) (17) 
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因此，对于固定的〖，平均的工作量可减少到仅仅用 /2 + O ( log log 72) 次比较。对于 
%( n ) 的一个优美的下限见于习题25。 

排序和选择问题是一个更具一般性问题的特殊情况，该问 题即： 求同一个给定 
的偏序相一致的^个给定元素的一个排列。 A . C . Yao[SICOMP 18(1989),679- 

689] 已经证明，如果偏序是由有； 2 个顶 点和々 个连通分量的一个无回路有向图 G 
定义的，则为解决这样一个问题，在最坏情况下和平均情况下，所需要的极小比较次 
数，总是 0( lg ( n ! / T ( G ) + n _々）， 其中 T ( G ) 是同偏序一致的排列的总个数 （ G 
的拓朴排序的个数）。 


习题 

1.[]5]在 Lewis Carrol I 的锦标赛中（图39和图40)，为什么选手13被淘汰，尽管在第三轮中 
他贏了？ 

► 2.[ M 25] 证明，在通过一系列的比较，找出了 72个元素的第 f 个最大者之后，我们还知道哪 t 

_ 1个元素是大于它的，哪 72 - £个元素是小于它的。 

3. [20] 证明，对于 ， V t ( n )> V t ( n ~ 1) 和 W , U )> - 1)。 

4 . [ M 25 ] ( F . Fussenegger 和 H . N . Gabow ) 证明 W t ( n)^n - t + [ \ gn l ~ ~\ 0 

5. [10 ] 证明 W ^ nXV ^ n ) + 1 0 

6. [ M 26]( R . W . Floyd ) 给定 n 个不同的元素 I 以及某些 ， j ) 对的关系 X , < X ; 
的一个集合，我们希望找出第二个最大的元素。如果已经知道对 j ^ k 有足 及足<&，则 
X ,不可能是第二个最大的元素，所以它可被消去。得到的关系有一个如同 


的形式，即，可以由一个多重集合…， O 表示的 m 组 元素； 第组包含 + i 个元素，已知 

它们当中的一个大于其它的。例如，上边的配置可以由多重集合（0，1,2,2,3,5)来描述；当不知道 
任何关系时，我们有77个零的一个多重集合。 

令 /(^ ，匕， …，0 是为找出这样一个偏序集合的第二个最大的元素所需要的极小比较数， 

证明 

f (“， h ，…， = ~ 2 + T lg (2 / i + 2 1 2 + •■- + 2 l m )~| 

[提示 ：证明 ，最好的策略总是比较两个最小组的最大元素，直到把 m 归结成1为止 ； 对 1： + 1 2 + 
…十+ 2 m 使用归纳法]。 

7. [ M 20] 证明（8)。 

8. [ M 22] Kislitsyn 公式 （6) 是以使用具有72个外部节点的完备二叉树进行树选择排序为基 
础的。对任何 f 和 rz ， 以某个其它树为基础的一个树选择算法将给出更好的上限吗？ 

► 9. [20] 使用 Hadian 和 Sobel 的替代选择方法[参见（11)]，画出在至多6步中即找出5个元 
素的中值的比较树。 





206 




5.3 最优排序 


10. [35] 证明可以在至多10步之内求出7个元素的中值。 

11 . L 38]( K . Noshita ) 证明可以在至多14步之内求出9个元素的中值，而这14步的前7步和 
Doren 的方法 一 样。 

12. [21 KHadian 和 Sobel ) 证明： V 3 ( n ) < V 3 (n — 1) + 2 [提 示： 由去掉 H ， X 2 ， X 3 ， X 4 1 之最 
小者开始]。 

13. [ HM 28]( R . W . Floyd ) 证明，如果使用一个递归定义的方法，从找出丨 X 】，…， X ，丨的中 

值元素开始，则可以通过平均 ■!"” + OU 2/3 log 72 ) 次比较找出…，; U 的中值。 

► l 4.[20]( M . Sobel ) 设 L / f U ) 是为找出”个元素的第 T 个最大者（但无须知道它们的相对次 
序），所需要的极小比较数。证明 U 2 (5)<5 o 

15. [22]( I . Pohl ) 假设我们对空间（而不是时间）的极小化感兴趣。如果每个元素都填入一 
个字，而且如果这些元素逐个地输入到一个寄存器中，则为了计算”个元素的第《个最大者，至少 

需要多少存储单元？ 

16. [25 ]( I . Pohl ) 证明，至多使用糾-2次比较，便可以找出 n 个元素的集合的极大和极 

小； 而且这个比较数不可能被降低[提示：这样一个算法的任何阶段都可表示作一个四元组 （ a ，6, 
c , d )， 其中 a 元素尚未被比较，6已经获胜过但是尚未失败过， c 已经失败过而尚未获胜过 d 有 

胜有负。试构造一个适当的敌手]。 

17. [20]( R . W . Floyd ) 试证使用至多-々_/ +\ +〖—〜《”「匕 J.V 2,, + — 州次 

比较，就有可能依次地选择”个元素的一个集合的々个最大和 Z 个最小的元素。 

18. [ M 20] 如果在定理 L 的证明中使用了大小为5,而不是7的组，则将得到什么定理？ 

19. [ M 42] 把表2扩充到 tz =8。 

20. [ M 47] 当 n — a 时， V 2 U ) _ n 的渐近值是多少？ 

21 . [32 ] ( P . V.Ramanan 和 L . Hyafil ) 证明，当是»2时，(2々 + 2卜 1 + 2々 + ㈠ + 

( r - l ) U - l ); 并且证明，由于习题4,等式对于无穷多个々和 〖成立 [提 示： 保持两个淘汰树并且 
适当地合并它们的结果]。 

22 . [24 ] (David G . Kirkpatrick ) 试证明，当4*2^< n - 1<5*2^ 时，对于 V 3 ( ” ） 的上限 （11) 可 

减1如下 ：（ i ) 构造大小为 2* 的4个淘汰树。 （ ii ) 求4个极大值的极小，并抛弃它的树的所有 Y 个 
元素。 （ iii ) 使用已知信息，构造大小为” - I - 的一棵淘汰树。 （ K 0 像在 U ) 的证明中那样继 

续。 

23 . [ M 49 ] 当⑺时， V 「 W 21 的渐近值是多少？ 

24 . [ HM 40 ] 试证明，对于《<「 nl 2 l y V t ( n)<n + t + 0(7^2 log n ) c 提示 ：证明 ，通过这许 

多的比较，我们事实上可以求出第 G 和第 「Z + 7 /In 个元素，在这之后就可容易地 

确定第 f 个的位置。 _ 

► 25 . [ M 35 ] ( W . Cunto 和 J ‘ I . Munro ) 试证明，当 Z <「 n /2 l 时，”+ / — 2。 

26 . [ M 32 ]( A . Schonhage ,1974) ( a ) 使用习题 14 的符号，证明对于 n ^3， U t (n )^ min (2 + U t 
( n _ l )，2+ RhU -1)) [提示：只要当前的偏序不是完全由具有•或 • 一• 形式的分量组成的， 
就由7?减小 成〃 - 1，由此构造出 一 个敌手]。 

( b ) 类似地，对于 通过构造处理分量•， .一■ , >>的一个敌手，证明 

U t ( n ) ^ min (2 + U t (n - 1),3+ U t -\(n - 1),3+ U t (n -2)) 
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( c ) 因此，对于 Kt<n/2, U t (n)>n + t + t)l2],t)~3[^ V 或 W 代替 U 时，在 

( a ) 和 （ b ) 中的不等式也适用，因此建立了表1中的若干个表项的最优性]。 

27 . [M34 ] 随机化敌手是 一个这样的敌手算法，当它进行决策时，允许它使用硬币投掷。 

( a ) 设 A 是一个随机化敌手，并令 Pr (/) 是 A 达到一个给定的比较树的叶/的概率。试证明， 
如果对于所有的 /， Pr (/)</>, 则这个比较树的髙度 > lg ( l //0。 

( b ) 给定有待在稍后选择的整参数 g 和 r , 对于选择 W 个元素第 i 个最大者的问题，考虑下列 
敌手： 

A 1. 选择/ 个元素的一个随机集合: T ; 所有种可能性是同等可能的（我们将确保£ _ 1个 

最大元素属于丁）。设 S = 丨1， …， 《丨\ 了是其 它元素，并置 So - S , T 0 - T ; So 和： T 0 将 
表示那些可能变成第 i 个最大的元素。 

A 2. 当 | 了 0 | > r 时，判定所有比较如下 ：如果 ^ eS 和 3 ； 6 丁，就说，: r 〈: y 。 如果 

和掷一次硬币来判定，如果较小的元素来自 So 就从 S Q 中删去这个元素。如果 x 
€ 了和 ： y € 丁，掷一次硬币来判定，如果较大者来自 T Q 就从： To 删去这个元素。 

A 3 .只要 | T 。 | = r ， 就把这些元素分为 P ， Q，R 3类，如下 ：如果 | S Q |< g ， 令 P = S ， Q 二 

T 0y R = T\ T 0 o 否则，对于每个: y / GTo , 令 C (_>；) 是已经同： y 做过比较的 S 的元素，并 

选择： V 。使得 | CO 。） | 是极小。令 P = (S \ S 0 }[JC(y 0 ),Q=(S 0 \ Ciyo^Ulyo]^ 

=丁\ 通过指出 P 的元素小于 Q 的元素，和 Q 的元素小于只的元素，来判定所 

有未来的 比较； 当 I 和 y 为同一类时，掷一次硬币。 

证明，如果和在步骤 A 3 开始时 | C (: y Q ) |< g - r , 则每个叶被达到的概率<(« + 1 

提 示：证 明至少投掷了 72次硬币。 

\ \t / I 

( c ) 继续 （ b )， 试证对于所有整数和;*,我们有 

V t ( n ) ^ min (^n - I + (r - l)(q + 1 - r) y n - q + lg ((:)/(« + 1 - /) ) J j 

( d ) 通过选择和 r 来建立 （14)。 

* 5 . 3.4 排序网络 

在本小节中，我们将研究一种受限制类型的排序，由于它的应用和丰富的理论 
基础使它特别有趣。新的限制是坚持齐性的比较序列。齐性的定义 是：每 次比较 
K , 和后，随后的比较对于 K i < K ) 和 A 〉％ 是完全一样的，仅将；和）互换即 

可。 

图 43( a ) 示出了一株满足这个齐性条件的比较树。注意，每层都有同样多次的 
比较。所以在进行了 m 次比较后，有个结果。由于 rz ! 不是2的幂，所以某些 
比较必然是多余的。换句话说，这个树的某些分支必须做多于实际需要的比较，才 
能确保这株树所有对应的分支都恰当地排好序。这里“多余”的意思是，它们的子树 
之一实际上是不可能出现的。 

由于这样一株树被从顶部到下部的每条路径惟一地确定，所以这样一个排序方 
案最容易表示成一个 网络； 参见图 43( b )。 在这样一个网络中，方框表示“比较模 
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块”，它有两个输入（表示成从上边进入到这个模块的直线）和两个输出（表示引向下 
边的直 线）； 左边的输岀是两个输入中的较小者，而右边的输出是较大者。在这个网 
络的下部，是丨是第二个最小者，等等。不难证 

明，任何排序网络都对应于在上述意义下的齐性的比较，而任何齐性树都对应于比 
较模块的一个网络。 

附带说一句，我们要指出，从工程的观点来看，比较模块是相当容易制造的。例 
如，假设直线包含二进制数，其中每一个单位时间有一个二进位数进入每个模块，最 
先进入的是最高位。每个比较模块都有3个状态，并按如下方式 进行： 


时间 t 

状态 输入 


时间 （ /十1 ) 

状态 输出 


0 

0 

0 

0 




1 x y 1 x y 

2 x y 2 ^ x 

开始时，所有的模块都在状态 0 并且输出 0 0。一个模块只要它的输入不同就进入 
状态1或状态2。如果在直线和 iT 4 上附加一个适当的延迟元件，则在时间/ 

时在图 43( b ) 顶上开始送来的数，将被排好次序，并从 z + 3时开始由底下输出。 

为了建立排序网络的理论，不妨以一种如图44中所示的稍微不同的方式来表 
示它们。这里，数从左边进入，并用两条直线间的垂直连接表示比较 模块； 每个比较 
块必要时交换其输入量，使得在通过这个比较块之后较大的数出现在下边的线上。 
在这个图形的右边，所有的数都是从上到下有序的。 


Ki 


4 





K 2 


1 


4 


4 


尺 3 




3 


3 


K a 


2 


2 


3 



1-M 
2 — 

3 — ^3 

A— 


图 44 当对 4 个数的序列〈4,1 ，3, 2〉排序时表示图 43 的网络的另一种方式 

我们以前关于最优排序的研究，集中在使比较次数极小化上，而很少或者根本 
不注意它引起的任何数据移动或可能需要的判定结构的复杂性。在这方面，排序网 
络有明显的优点，因为数据可以保留在 n 个地点，而且判定结构是“直线” 式的； 不需 
要记住以前比较的结果——因为方案是预先就固定好的。排序网络的另一个重要 
优点是，有可能重叠若干个操作，同时地执行它们（在一台适当的机器上）。例如，当 
允许同时的非重叠的比较时，图43和图44中的5步可以叠合成3步，因为前2步 
和第二个2步可以组合在 一起； 在本小节稍后将剖析排序网络的这个性质。因此, 
排序网络可能是非常有用的，尽管还不完全清楚对很大的 n , 能否构造有效的 n 个 
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元素的排序 网络； 我们将会发现，为了保持齐性的判定结构，需要许多附加的比较。 

当给定一个〃元素的网络时，存在两种简单的方法来构造一个” +1个元素的 
排序网络，或用插入原理，或用选择原理。图 45( a ) 说明在头 rz 个元素已经排序之 
后，如何把第7? +1个元素插人到它应有位置 中去； 而这个图的 （ b ) 部分说明在对剩 
下的一些元素排序之前，如何来选择最大的元素。重复应用图 45( a ), 就得到了类似 
于直接插人排序的网络（算法 5.2.1 S ), 而重复应用图 45( b )， 就产生了类似于冒泡 
排序的网络（算法 5.2.2 B )。 图46给出了相应的6元素的网络。注意，当允许同时 
操作时，两个方法都归结为同一个“三角形”的有2〃 -3 个阶段的过程（图47)。 




X3 




工 n+ 1 



对《个元 


素的排 

序网络 



⑷ 










$n + l 



(b) 


A 

x 3 



图 45 从 / z 排序器构造 U + l ) 排序器 

(a) 插入； （ b) 选择。 



图46通过重复应用图45得到的 图47在并行的情况下 

类似于初等内部排序图式的网络 直接插人=冒泡排序！ 

(a) 直接 插入； （ b) 冒泡排序。 

容易证 明：图 43和图44的网络将把4个数的任何集合排成为有序的，因为前4 
个比较器把最小和最大的元素放置到正确的位置，最后的比较器把剩下的2个元素 
顺序排序。但是要知道一个给定的网络是否对所有可能的输入序列进行排序，并不 
总是那样容易的；例如： 



都是正确的4个元素的排序网络，但是它们正确性的证明却非显然。试验 n 个不同 
元素的所有 n ! 个排列的每个〃元素网络，这肯定是充分的。但是事实上，我们可 
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以通过少得多的试验获 得之： 

定理 Z OH 原理)如果具有 n 个输入线的一个网络，把0和1的所有 2 n 个序 
列排成为非减次序，则它将把 n 个数的任意序列排成为非减的次序。 

证明（这是 Bouricius 定理的特殊情况，习题 5.3. 1_12)如果/(工）是任何单调函 

数，且每当：时， / U )</(3；), 而且如果一个给定的网络把〈&，…，&〉变换成 
Gi , …，％〉，则容易看出这个网络将把〈/(〜），…，/(〜）〉变换成〈/(%)，•••, 
/(%)〉。如果对某个 + 则考察单调函数/，它把所有<%的数变成0,以 
及把所有的数变成1;这定义了诸0和1的一个序列〈/(:^)，…， /( x ，,）>， 它不 
被这个网络所排序。因此，如果所有的 0-1 序列被排序，则对于1<纟<72，我们有3；, 

<乂 + 1。 I 

在构造排序网络中， 0-1 原理是十分有帮助的。作为一个非平凡的例子，我们可 
以推导 Batcher 的“合并交换”（算法5 .2.2M) 的一种推广形式。其思想是通过独立 
地对前 m 个元素和最后 n 个元素排序来实现对全部 M + n 个元素的排序，然后对 
结果应用 （m ，7? ) 合并网络。 一个 （ m ， n ) 合并网络可以归纳地构造如下： 

a) 如果 77Z =0或 n =0,则这个网络是空的。如果 m 二 n = 1，则这个网络是单个 
比较模块。 

b) 如果 mn 〉1，令有待合并的诸序列为〈:^，…，:〉和〈^1，… ：y„ 〉。合并“奇序 

列”〈:^，: c 3 , …，: — 和〈％ ,力，…，得到排好序的结果 〈〜 ，幻 2 ,…， 
r 「 m /2 l + U /2 l 〉 ；合并“偶序列”〈工2，工4, …， Z 2 LW 2」〉 和 〈: y 2,： y 4, •• •，: V 2 LW 2」〉 ，得到排好序 

的结果 …， WLm/2 」 + LW2 」〉。 最后，应用比较交换操作 

*^1 ： 卩2，加2 :卩3，抝3 : ^4，…， ^ Lm /2 J + L «/2 J ： (1) 

到序列 

( v lf W l , V 2 y ' W 2 yV 3 y W 3) -^ V lm l 2\ + lnl 2 \y rn/2 J + L n/2j ^ yV ^) (2) 

上，这个结果将是排好序的。注意，这里如果 m 和 n 都是偶数，则，= 

外饥/2」+ 1_»/2」+1不存在，另外，除非爪和 n 都是奇数，否则 V ** = ri _ m /2」+ M 2」+ 2 也不 

存在。 （1) 指出的比较模块的总数为 L (w - 1)/2」。 

Batcher 的 （m，n) 合并网络称为奇偶合并。按照这些原理构造的一个 （4 ，7)合 
并如图48所示。 

为了证明这个相当奇特的合并过程实际上是行得通的，当 mn > l 时，我们使用 
0-1 原理，对所有的0和1的序列来测试它。在初始的 W 排序和〃排序后，对某个 
是和/，序列（: Ci ，…，: ) 将由6个0后边接上772 - 々个1组成，而序列〈: yi ，…，: y„ 〉 

将是/个0后边接上 7 Z - Z 个1。因此序列将恰由 h /2 l +「 Z /2 l 个0,后 

边接一些1 组成； 而…，〉将由 U/2」+ L//2」 个0,后边接一些1组成。现在 
这里的要点是 

(「々/21+ r//2l) - (U/2」+L//2J) = 0,1 或2 (3) 
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图 48 当 m =4 和 n = 7时的奇偶合并 

如果这个差是0或1，则序列 （2) 已经有序了，如果这个差是2,则 （1) 中的比较交换 


之一就把问题全都解决了。这就完成了证明（注意，0 


原理把合并问题从 


m 



n 


种情况的考虑归结为仅仅 （m 



1)(/2 + 1) 种，它们由两个参数々和 Z 表 


m 


示）。 


设 C ( m ， n ) 是对于 m 和 n 在奇偶合并中使用的比较模块个数，不计初始的 m 


排序和 n 排序，我们有 


C ( m ， n ) 




mn 


I C(T m /2 l , T n /2 l ) + C ( L m \2\ , Ln /2 j ) + L ( m -V n — 1)/2」 
般说来，这不是 m 和 n 的特别简单的函数，但是注意 C ( l ， n ) 


如果 mn < 1 
如果 mw > 1 


⑷ 


n 


和 


C ( 


m 


十 l，w 十 1) - C(m y n ) = 

C ( LW 2」， L ”/2」) 


+ C(Lw/2」+ 1 ， LW2」+ 1) _ 
如果 > 1 


可以导岀关系 


C ( 771 + 1 , n 十 1) _ C ( 77Z , 


n 




Llgm 」 十 2 + Ln /2 LlgmJ + 1 J 


如果 n > m > 1 


(5) 


因此 


C ( m ， m + r ) 




B ( m ) + 77 Z + R m ( r ) 


对于 m > 0 ， 



>0 


其中 BU ) 是等式5.3.1-(3)的“二叉插入”函数2匕 1 「1 § 61, 而其中只 
列级数的前 m 项之和 


m 



( 6 ) 
) 表示下 



+ 0 


+ 




2 


+ 


r + 2 r + 

4 」 L 4 



+ + 
L 8 J 




+ l ^7^ T 」+ 


(7) 


特别是，当 


r 


0 时，我们有重要的特殊情况 


C ( m ， 


m 




B ( m ) + m 


( 8 ) 


进而，如果 


「lgm 1，则 


R m (r + 2 l ) 






R m ( r ) + 1 


■ 


2 r 


-i 



2 - V ~ 2 + •- + 2'" 1 - 2 ° + 


m 



• 2 ，— 1 
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因此 C ( m，n +2 1 ) — C ( m ， n ) 韦 一 个简单的形式，并且 

C ( m ， n ) = + ~ + 0(1) 对固定的 m ， n — 00 , t =「 Igm ] (9) 

\ ^ 2 l / 

0(1) 项是 n 的一个最终周期函数，其周期长度为 2、 由等式 （8) 和习题 5.3.1-15, 
当 W — 00 时， C ( 72 ， 72 ) = 77 lg /2 + O ( 72 ) 。 

极小比较网络 令以 n ) 为 n 个元素的排序网络中所需要的比较器的极小个 
数; 显然 S ( n )> SU )， 其中 SU ) 为一个不需齐性的排序过程中所需要的极小比 
较次数（参见 5.3.1 小节）。我们有 S (4) = 5 = S (4) ，所以当 n = 4时，新的限制并 
不引起效率的 损失； 但当 n =5时，结果已经是 S (5) = 9 而 S (5)=7 0 确定 SU ) 的 
问题似乎比确定 SU ) 的问题更为 困难； 甚至连 S ( n ) 的渐近特性也还不知道。 

回顾这个问题的历史是有趣的，因为这里迈出的每一步都是很艰难的。大约在 
1954年， P . N . Armstrong ， R . J . Nelson 以及 D . J . O’Connor 首先剖析了排序网络[见 

U . S . Patent 3029413] ;用其专利律师的话说，“通过使用这个技巧，有可能使用较小 
的双线排序开关来设计经济的 n 线排序开关”。在发现 5(/2 + 1)< SU ) + n 之 
后，他们给出了对于 4< n <8 的特殊构造，分别使用了 5,9，12，18和19个比较器。 
随后， Nelson 同 R . C . Bose 合作，证明了对于所有的 n , S (2 n )^7 > n - 2”； 因此 S ( n ) 
= OU lg3 ) = OU 1585 )。Bose 和 Nelson 在 JACM 9(1962)，282 〜 296 上发表了他们 
有趣的方法，文中他们推测它是最好的。 T . N . Hibbard[JACM 10(1963),142- 
150] 发现了一个类似但稍简单些的构造，它使用相同的比较数，由此更增强了这个 
推测。 

1964年， R . W . Fbyd 和 D . E . Knuth 发现了解决这个问题的新方法，导致了形 
如 SU ) = OU 1 + f / ~) 的一个渐近限值。 K . E . Batcher 独立地发现了上边概述的 

一般的合并 技巧； 使用了由递推式 

c ( l ) = 0, c ( tz ) = c ( fn /2 l ) + c ( Ln /2 j ) + C ( Tn /2], L «/2 j ) n ^ 2 (10) 

对于定义的比较器个数，他证明（见习题 5.2.2-14) 

c ( V ) = ( t 2 - t + 4)2 卜 2 - 1 

而且由此得出 S ( n ) = O ( n (log 72 ) 2 ) o Batcher ， Floyd 及 Knuth 都过了 一 ^段时间才 
发表他们的构造 [iVorices of the Amer . Math . Soc . 14(1967)，283; Proc . AFIPS Spring 
Joint Computer Conf . 32(1968) ， 307 〜 314] 。 

一些人已经找出方法来改进 Batcher 的合并交换的构造所用的比较次数；下表 
说明当前已知的 S ( n ) 的最好 上限： 

n = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 

c ( n ) = 0 1 3 5 9 12 16 19 26 31 37 41 48 53 59 63 (11) 

S (”） <0 1 3 5 9 12 16 19 25 29 35 39 45 51 56 60 

由于对 8<72<16， S (72)< C (72)， 故对所有72>8,合并交换是非最优的。当72<8 
时，合并交换使用的比较器个数与 Bose 和 Nelson 的构造相同。 Floyd 和 Knuth 于 
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1964〜1966年证明了当72 ^8时， S(/z) 的上列值是精确的[见 A Survey of Combina ¬ 
torial Theory North-Holland , 1973 )，163 〜 172 ];当 n > 8 时， S(n) 的值仍然是未知 
的。 

图49所示为导致 （11) 中的值的构造。以有趣的三路合并为基础的72 =9的网 
络，是1964年由 R.W.Floyd 建 立的； 它的正确性可以通过使用习题27中描述的一 
般原理来证明。1969年， A.Waksman 把输入当作丨1，2，".，101的排列，并试图尽可 

能地减少在每个阶段中，每一直线上出现的可能的数值的数目，同时保留某种对称 
性，由此发现了 n = 10 的网络。 


___ 


tmuimmmmmm 


___ 


ncHBMMimaH 

iiibmhmisi»58 

InaiMWBiMM 


n = 9 


25 个模块，延迟 9 



n = 10 


29 个模块，延迟 9 


pIMiHBMIMIBfl* 


IIMBilAMBIOTilMilMMI 


12 


39 个模块，延迟 9 



« = 13 


45 个模块，延迟 10 



n = i 6 60 个模块,延迟10 


图49有效的排序网络 

对于72 = 13 所亦的网络有十分不同的家谱： Hughes Juille [Lecture Notes in 

Comp . Sci . 929 (1995) ,246 〜 260] 使用一个计算机程序，通过模拟基因的进化过程 
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来构造它。这个网络没有明显的意义，但它奏效——而且它比迄今根据人们的推理 
所设计的任何其他构造都更短些。 

1969年， G . Shapiro 发现了对于16个元素的62个比较器的排序网络，这是相当 
令人惊讶的。因为当72是2的乘方时， Batcher 的方法 （63 个比较）看起来是最好 
的。在听说 Shapiro 的构造后不久， M . V . Green 由于找出图49中包含60个比较的 
排序器，而使人们更为惊讶。 Green 构造的前一部分是容易理 解的； 在对虚线左边进 
行了 32次比较/交换之后，这些直线可以以丨的16个子集按下面的方式 
来标号 ：每当 s 是〖的一个子集时，标号为 s 的直线包含一个数，这个数小于或等于 
标号为 i 的直线的内容。习题32中进一步讨论了这里的排序状态。然而，在 Green 
的网络的随后层次上所做的比较变得越来越神秘，而且至今未有人看出怎样来推广 
这个构造，以便相应地得到对于72的更高值的有效网络。 

Shapiro 和 Green 也发现了 n = 12的网络。当 n = 11 ， 13 ， 14或15时，通过把 n 

+ 1网络中最底下的线和触及该线的所有比较器一起撤销，就可以建立好的网络。 

由 D . Van Voorhis 给出的对于256个元素的当前已知为最好的排序网络， 
Batcher 方法的3839相比，其证明 S (256) <3651 [参见 R . L . Drysdale 和 F . H . 
Young , S/COMP 4 (1975)，264〜270]。当⑺时，事实上结果为 S = OU log tz ); 这 
个令人吃惊的上限是由 Ajtai ， Komios 和 Szemeredi X £ Combinatorica 3(1983),1 〜 19 
中证明的。他们所构造的网络没有实际意义，因为引进许多的比较器只不过是为了 
节省 log n 的一个因子，除非 n 超过地球上所有计算机的总的内存容量，否则 
Batcher 的方法要好得多。但是 Ajtai ， Komios 和 Szemeredi 的定理确实建立了 一^直 
到一个常数因子的 SU ) 的真正渐近增长比率。 

极小时间网络 在排序网络的物理实现中，以及在并行计算机上，有可能同时 

进行非重叠的比较 交换； 因此自然地提出了延迟时间极小化的问题。稍做考虑就可 

看出，如果把一条路径定义为任何自左到右的路线，这个路线可能在比较器处改换 

所走的直线，则一个排序网络的延迟时间，等于通过网络与任何“路径”接触的比较 

器之极大个数。可以在每个比较器上放置一个序列编号，来指出它可以被执行的最 

早 时刻； 这个编号比在它的输人线上较早出现的比较器序列编号的极大值大 i (见 

图 50( a ); 此图的 （ b ) 部分示出重画的同一网络，其中每一个比较完成于最早可能的 
时刻）。 
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图50在最早可能的时刻进行每个比较 


上面所描述的 Batcher 奇偶合并网络花费 m ， m ) 个时间单位，其中 T B ( m , 

0) = Tq (0 9 n ) = 0, (1,1) = 1，且 

T B {m ^ n ) — 1 + max ( T B ( im /2 j 9 T B ([ m /2 ],f rz /2]) 对于 mn ^2 

我们可以使用这些关系，通过归纳法来证明 T B ( m，n + 1)>丁 5 (饥，〃）；因此对于 
mn ^2 , T B ( m 9 n ) — 1 + T B ([ m /2] , [ rz /2]) ，并由此得出 

T b ( m ， n ) = l +「lg max ( m , rz )] 对于 (12) 


由此，习题 5 证明， Batcher 排序方法的延迟时间为 

’1 + rigw 1 \ 

I 2 / 


(13) 


令 TU ) 是在/2个元素的任何排序网络中，可达到的极小延迟时间。有可能来改进 
上面描述的某些网络，使得它们有较少的延迟时间，但不使用更多的比较器，如图51中 
对于 72=6， n =9 和 rz = 11以及习题7对于 71 = 10 所示的那样。如果如图51中所示对 
于 n = 10、12 和16的值得注意的网络那样，我们增加一个或两个额外的模块，则还可以 
达到更小的延迟时间。这些构造，对于小的 n ， 产生了 t ( n ) 的下列上限 


n = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16…、 

(14) 

T ( n ) < 0 13355667 7 8 8 9 9 9 9 

对于《<10,这里给出的值已知是精确的（见习题4)。图51中的网络值得仔细研 
究，因为它们的排序能力决不是一眼能看出来的；有些是在1969 年一 1971年间由 

G . Shapiro ( 对于 n = 6， 12) 和 D . Van Voorhis ( n = 10, 16) 发现的。其余的 （n = 9，11 ) 
是 Loren Schwiebert 于2001年使用遗传方法发现的。 


合并 网络令 M ( m ， rz ) 表示在一个网络中所需要的极小比较模块数，这个网 
络把 m 个元素:…同 n 个元素加以合并以形成有序序列 

… < z m … 现在，还没有发现比上面描述的奇偶合并更优越的合并网络，因此 （6) 

中的函数 C ( m ， n ) 就表示对于 i ^( m ， rz ) 已知的最好上限。 

R . W . Floyd 已经发现了求这个合并问题下限的一种有趣方法。 


定理 F 对于所有 n ^ l ， lii (2 n ，2 n )>2^1 ( n ， n ) + n 


证明考虑具有 M (2 n ,2 n ) 个比较模块的网络，它有能力对所有的输入序列 
( q ，…， ) 排序，使得 t 和2：2<之 4 <〜<2； 4；1 。可以假定每个模 

块都对某个 i 〈 j 以 （ min ( z ,. 、 z ) ， max ( , z } )) 代替 （ 2 ^ ， $ )( 见习题 16) 。因此诸比 

较器可以分成3 类： 

a ) i 《2 n 和 

b ) 2’〉和 j 〉2 w 0 

c ) i ^2 n 和 j 〉2 rz 。 

类 a ) 必须至少包含价（ n ， ?2) 个比较器，因为 + i ，+ 2，…，当开始合并时可 
能已经处于它们最后的位 置了； 类似地，在类 b ) 中至少有 i ^(7 i ， n ) 个比较器，进而， 




217 




第 5 章排序 




12模块，延迟5 




mmwmMimmmm 

mnwmiwmBm 




n 


V 


25 模块，延迟 7 


25 模块，延迟 8 








n = 10 


31 模块，延迟 7 


n — 11 


35模块，延迟8 



n — 12 


40模块，延迟8 



n = 16 61模块，延迟9 


图51当并行地执行比较时，非常快的排序网络 


输入序列〈0，1，0，1，_._，0，1〉说明类 c ) 至少包含 n 个比较器，因为 n 个0必须从 

! 之2乃十1，"•，之 \m\\ 之1，…，之2 丄 I 


重复使用定理 F 可证明 M (2 n ,2 m )^ y ( m + 2)2 w ; 因此 M(n y n )^^-nlgn + 

0( n ) Q 由定理 5.3.2 M 可知，没有网络限制的合并，只需要 M ( n , n )=2 n - 1 ^ 
比较； 因此我们已经证明，通过网络进行合并本质上比通常的合并更困难。 

奇偶合并表明 


M(m j n ) ^ C(m y n ) 






2 


m 



n 


lg min ( m } n ) + 0 {m + n 


P . B . Miltersen , M . Paterson 和 J ■ TaruiL/ACM 43(1996), 147 〜 165] 通过确立下限 
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M ( 



, 72 ) > f (( 





)lg 


m 


ml In 2 ) 对于 






改进了定理 F 。 因此 


M ( 



，72)= 


2 





)lg min (m ,n) + 0( 





A . C . Yao (姚期智）和 F . F . Yao (姚储枫 ） [/ACM 23 (1976 )，566 〜 571 ] 已经证 


明精确的公式 M (2,/?) = C (2, t ?) = 


3 


2 



对于 m = n <5,也已经知道 M(m , 



的值等于 C ( m ，72); 参见习题9。 


双调排序 当允许进行同时的比较时，在等式 （12) 中已经看到，当 l < m<n 

时，奇偶合并使用 rig (2 tz )1 个延迟时间单位。 Batcher 已经想出了用于合并的另一 

类型的网络，称做双调排序器。尽管它要求更多的比较模块，但它把延迟时间降低 
到 rig (m + 77)"|[参见1/.5.朽化价3428946(1969)]。 

我们说个数的一个序列〈^，…，％>是双调的，如果对于某个 

请对照通常的“单调”序列的定义）。一个 p 阶的双调排序器是 
一个有能力把长度为的任何双调序列，排成为非减次序的比较网络。把：… 

同合并的问题，是双调排序问题的一个特殊情况，因为合并可以 
通过对序列 〈 Xm ，…，: ci ，： yi ，…，: y „ 〉应用 一 个 m + n 阶的双调排序器来完成 D 

注意，若序列是双调的，则它的所有子序列也都是双 调的； Batcher 

发现了奇偶合并网络之后不久他就发现了 ：我们 可以以任何类似的方式构造一个阶 
为 P 的双调排序器，方法是首先独立地对双调子序列〈 2^， Z 3 ，2： 5 ，…〉和〈 2：2 ， A , ， 

…〉 进行排序，然后比较和变换 q : z 2 ， z 3 : z 4 (它的证明见习题10)。如果 CVp ) 是 

对应的比较模块数，则我们有 

c\p) = C^r Pl2l) + C ，（ LW2 」） +Lp/2J 对于 p^2 (15) 

而且延迟时间显然是 「 lgpl 。 图52所示为以这种方式 
构造的7阶双调排 序器： 它可以用作一个具有3个延迟 
单位的 （3 ，4)或 (2 ，5)合并 网络； 对于 m =2 和/2=5的 
奇偶合并，比较器少一个，但多一级延迟。 

阶的 Batcher 双调排序器是特别有趣的 ：它由 Z 
层组成，每层有个比较器。如果我们把输入线编 
号为，2^，…2^ -1 ，则当且仅当 〖和 j 仅仅在它们的 

二进位表示的第 Z 个最高位上不同时，元素&才和 Z 层 

上的$进行比较。这个简单的结构导致了并行排序网络，它像合并交换（即算法 
5.2.2 M ) 那样快，但是实现要容易得多（见习题11和13)。 

不存在基于同时不相交的比较的并行合并算法，能够在少于 「 lg(m + n )1 阶段 
中进行排序，无论它是齐性地还是非齐性地工作。在这个意义下，双调合并是最优 
的（参见习题46)。在习题57中，讨论了以较少的比较，但稍微更复杂的控制逻辑， 
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图 52 7 阶 Batcher 
双调排序器 
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来实现这个最优时间的另一个方法。 

当时，一个 （ 77 Z ，72 ) 合并网络的 X ^ 

第72个最小的输出依赖于2772 + [ 771 < rz ] 个 

输入（参见习题29)。如果它能通过有 Z 层延 m 
迟的比较器来计算，则它至多涉及 2 Z 个 输入； y 2 

因此2 z >2 m + [ t ?2<72]， 且 Z ^ rig (2 m + \_m 
< rz ]) 1 o Batcher 已经证明 [Report GER - y3 
14122( Akron , Ohio ： Goodyear Aerospace Cor ¬ 
poration ,1968)]， 如果在这个网络中允许“多 2/4 
重的扇形展开”，即分开诸直线使得在同一时 y5 
间里同一个数可以输入到许多模块中，则这 
个极小延迟时间是可以达到的。例如图53所 训 
示为他给出的 n =6 时，能在仅仅两个延迟级 

中把1个项目同”个其它项目合并的网络。图 53 把1个项目同 6 个其它项目合并， 
当然，具有多个扇形展开的网络不可能符合 

我们的约定，很容易看出 ：没有 多重扇形展开的任何 （1,/ z ) 合并网络，必须有 igU + 
1) 或更多的延迟时间（见习题45)。 

选择网络 也可以使用网络来解决 5.3.3 小节的问题。令 C / 〆 幻表示在一个 

网络中所需要的比较器的极小个数，这些比较器把 n 个不同输入中的/个最大者送 
入 r 个指定的输 出线； 允许它们在这些输出线上以任何次序出现。令 ％( n ) 表示为 

了把 W 个不同输入中的第 z 个最大者送入一个指定的输出直线，所需要的比较器极 
小 个数; 令表示把^个不同输入中的 r 个最大者以非减次序送到 f 个指定的 

输岀线，所需要的比较器极小个数。不难看出（参见习题 17) 

0 t ( n )< V t ( n ) < W ,( t2 ) (16) 

首先假设有2/个元素〈:^，…， x 2 ,〉， 我们希望选择最大的》 个； V . E . Alekseev 

[Kibernetika 5，5( 1969) ,99 〜 103] 。 已经注意到，要做到这一点我们可以先对 ^ , 

…，〉和 〈 O ：, ，:^〉排序，然后比较和交换 

工1 :工 2 r ,工2 :工2卜 1 …， ： ^t + 1 (17) 

由于这些对中没有一对能包含一个以上的最大的 r 个元素之一（为什么）？ Alekseev 
过程必定能选择最大的 f 个元素。 

如果要选择 W 个元素中的 r 个最大者，则可应用这个过程 n - 1次，每次消去 z 
个元素；因此 

U t ( nt ) < (72 — l )(2 S ( t ) + t ) (18) 

Alekseev 也对这个选择问题推导出一个有趣的 下限。 

定理 A U ,( n )>( n ~ + l)lo 

证明考虑选择最小的 r 个元素这样一个等价的问题是最方便的。可以把数 
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(/， 幻附加 到一个比较器网络的每条直线上，如图54所示，其中 Z 和“ 分别表示当 


(1 ， 8) , (1 ， 7) _ (1 ， 5 」^ 


W 

i 

(1,8) 

i ： - - - 

1 (2,8) 

M _ 

- i 

(2,7) (2,6) 

t— 

I 

(2,4) 

(1,8) (1J) I 

(2,7) [ (3,7) 

(2,4) 

-1 

(1 ， 8) 

A 

(2,8) 

■ • 

(4,8) (4,8) 


1 r 

(1,4) 

- W _ - 

(1,8) (1>7) (1,5) (1,5) 


1 (5,8) 

-1 

(1,8) 

A 

(2,8) 

. _ 

1 P - 

(2,7) (2,6) 


(5,7) 

- w 

(1 ， 8) (1,7) 

_ 一 

(2>7) 1 (3,7) 


(5,7) 

(1,8) 

i 

, (2 , 8) 1 

V W 

(4,8) (4 f 8) 

t 

[ (5,8) 


1 54分开最小的4个与最大的4个（在这 
些直线上的数用于定理 A 的证明） 


输入是 U ，2, …， n | 的一个排列时在该位置可以出现的极小值和极大值。令々和勿 

是进行比较 A :弋之前在直线 i 和）上的下限，并令 G 和&是进行比较之后对应的 

下限。显然，//=1^11(^，匕），习题24证明了这个并非显而易见的关系 

lj ^ + lj (19) 

现在让我们重新以另一种方式解释网络的操作（见图 55): 假定所有的输入线都含 
有零，而且每个“比较器”把它的输入中的较小者置于上边的直线，并把较大者加 1 



蜀55对于图54网络的另一种解释 

置于下边的直线。得到的数，…，在整个网络中均有性质 

2' X . (20) 

因为这在开始时成立，而且由于（19)，通过每个比较器后它还继续成立。进而 

mi + + … + 饥 n 

的最后值是在这个网络中比较器的总数，因为每个比较器都对这个和加1。 

如果这个网络选择最小的，个数，则诸 A 中有” - ，个> 纟十1;因此诸 m 7 . 中有 

71 - t 个必定 >「 lg(Z 十 1)1。 I 
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当 z = l 和 t = 2 时定理 A 的下限证明是精确的（见习题19)。表1给出了对于 
小的，和72，£/,(77)，％(72)和侬,（77)的某些值 。 Andrew Yao (姚期智）[?比0.士 6 _ 

sis , U . of Illinois (1975)] 通过证明当 n — ⑺时 U 3 ( n ) = 2 n + \gn + 0(1) 和 V t ( n ) 


= n「lgU + 1)1+ 0((logT7) Ugd )， 确定了对于固定的〖， CUn) 的渐近特性：极小延 
迟时间为 lg 72 + Llg，」lglgn + 0(log log log72) o N. Pippenger [SICOMP 20 (1991)， 
878 〜 887] 通过非构造性的方法已经证明，对于任何6>0,每当72充分大（依赖于0 
时，存在满足 U ln i 2j (n)<：(2+ ( )n lg n 的选择网络。 

表1在选择网络中所需要的比较 （ GU )， V ( tO ， M (72)) 


71 


n 


2 


n 


3 


n 


4 


n 


n 


2 


t ^ 4 


6 


( 0 , 0 , 0 ) 




( 1 , 1 , 1 ) 

( 0 , 1 , 1 ) 



( 2 , 2 , 2 ) 

( 2 , 3 , 3 ) 

( 0 , 2 , 3 ) 


( 3 , 3 , 3 ) 

( 4 , 5 , 5 ) 

( 3 , 5 , 5 ) 

( 0 , 3 , 5 ) 

( 4 , 4 , 4 ) 

( 6 , 7 , 7 ) 

( 6 , 7 , 8 ) 

( 4 , 7 , 9 ) 

( 5 , 5 , 5 ) 

( 8 , 9 , 9 ) 

( 8 , 10 , 10 ) 

( 8 , 10 , 12 ) 


( 0 , 4 , 9 ) 

( 5 , 9 , 12 ) 


( 0 , 5 , 12 ) 


习题 —— 第一组 

下列习题中的若干题深入探讨了排序网络理论，此处引人某些符号是方便的。我们令 [〗： j ] 
代表一个比较/交换模块。 具有” 个输入和 r 个比较模块的一个网络写做[2_,:心:^ ㈠ ：^]… 

其中每个 ； 和）都为了简便起见，我们称它为 w - 网络。 一个网络称做 标准的 ，如果 

对于 l < q < r ， i q < Jq 。 例如，图44描绘了一个标准的4-网络，以比较器序列[1:2][3:4][1:3] 

[2:4][2:3]表示之。 

正文中对于画网络图形的约定仅仅用于表示标准的网络；所有比较器都以从 z ‘到 j 的 
一条直线表示，其中 i < jo 当需画出非标准网络时，可以使用从〗到 j 的一个箭头，表示较大的数 
去到箭头的端点。例如，图56所示为对于16个元素的非标准网络，它的比较符是 [1:2] [4: 3] 
[5:6][8:7]等。习题11证明图56是一个排序网络。 

如果 x 二〈〜，…，^〉是一个 n 向量， a 是一个《网络，则由这个网络产生的数向量 

(() 1 , * * * , (xa ) „ ) ，写做 sea 。 为了简洁，令 a\J b — max {a ■, b ) , a f \ b ~ min ( a ，6)，《 = l — fl 。 于 

是当 2_ # 々时， （ 工 [: j ]),. = A A ， （x [ i j ] ) ; = x , V :^，以及 （: c [ i : j ]) ▲= 々。如果对于所有 
的： r 和对于1<纟<”，（別）,<(:^), + 1 时，我们说 a 是一 个排序 网络。 

符号 e ⑴代表 在位置 i 处为1，其它处为0的 一 '个向量；于是 （e ⑴） ^ ~。符号 D „ 代表所有 

由0和1组成的2” 个《维向量的集合，而代表由丨1，2,…，721的诸排列构成的所有《 !个向量 
的集合。向量〈:^ 和〈々 V yi ，.._，A V%〉写成工八 y 和 a V；y， 而且如果对于所 

有的込 则写成：于是当且仅当工 ) 当且仅当 x A》= a：。 如果： c 和》在 
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阶段1 阶段2 阶段3 阶段4 



• • _ # _ - 1 ■ 

图56以双调排序为基础的一个非标准排序网络 


D ,, 中，且对某个 i y x = ( y\f ^勺7^，则说 x 覆盖: y 。 最后，对于中所有 : c ， 设是： c 中1 

的个数，？(工）是0的 个数； 于是 v (_ r )+ ? U ) = n 。 

1. [20] 当 m =3 和 n =5 时，试画出一个奇偶合并的网络图形。 

2. [22] 证明 V . Pratt 的排序算法 （5.2.1 - 30) 导致对于 n 个元素的一个排序网络，它有近 
似于 （ log 2 n )( log 3 rz ) 的延迟级。试画出对于 / I 二12的对应的网络。 

3 . [ M 20 ] ( K . E . Batcher ) 试求 C ( m ， r?z — i ) 和 C ( m ， m ) 之间的一个简单关系。 

► 4. [ M 23 ] 证明 T (6)-5 o 

5. [ MI 6] 证明 （13) 是和 （10) 中概述的排序网络相关联的延迟时间。 

6. [2 S ] 令： TU ) 是通过进行 同时的不相交的比较 （不需要遵从网络限制）排序所需要的极小 
阶段数。每组这样的比较可表示为包含对偶集合丨“ ：，•••，〗/人1的一个节点，其中 h ， ji ， 

…，是不同的，在这个节点之下有 f 个分支，它们分别表示下列情况 

(K, < Kj ,K Z . < ，…， < 〜） 

1 12 2 r r AyV Afr 

( K t > K y K t < k ，…， K t < % ) 

1 2 J 2 r J r 

试证明了(5)二了⑹二5。 

7. [25] 证明如果在图 49 n = 10 的网络中，最后的比较器恰被移到倒数第二个和倒数第三个 
比较器的前头，则这网络仍能完成排序。 

8 . [ M 20 ] 证明对于 m t , m 2 ,77 1 , n 2 ^0 , M ( m x + m 2 , n Y + n 2 ) ( m x i ) + M ( m 2 , n 2 ) ^ 

min ( m \ ’ n 0 。 

9. [ M 25]( R . W . Floyd ) 证明 M (3,3) = 6， M (4,4) 二 9, A ^(5,5) = 13。 

10. [ M 22] 证明 Batcher 的双调排序器，如同在 （15) 之前的注释中所定义的那样，是有效的 
[提 示：只 须证明，所有的由々个1，后边接以 Z 个0,后边再接以/个1组成的序列都能被 
排序]。 

11. [ M 23 ] 证明阶为2 £ 的 Batcher 双调排序器，将不仅对满足 L 的序 

• 223 - 


ft 桊贼 lR<- 9Ih r 甦案 s <w iR^„ K M3 



S0 S0 -s 


224 









5.3 最优排序 


列 （ z Q ， q , …， z / q ) 排序，也将对满足 — 任何序列排序[推论，图56中的 

网络将对16个元素排序，这是因为每个阶段由双调排序器或逆序的双调排序器组成，后者应用于 
已经以相反的方向排好序的序列]。 

12. [ M 20] 证明或否定 ：如果 x 和: y 是同样长度的双调序列，则 xy y 和 A ： y 也是。 

► 13. [24] ( H . S . Stone ) 证明对于 V 个元素的一个排序网络，可以仿照图57中对于^ =4所 
示的形式加以构造。在这个方案中， r 2 个步骤的每一步都由前 y - 1 个元素和最后个元素的 
一个“完全的洗牌”组成，接着是对 2 M 1 对相邻元素执行的同时的操作。这些操作每一个或是“0” 
(无操作），或是“ + ”（一个标准比较模块）或是“-”（反序的比较模块）。这个排序分 f 个阶段进 
行，每阶段又分 f 步； 在最后阶段，所有的操作都是“+ ”。在阶段 <£), 我们做其中所有操作 
都是“0”的 r 5 步，后边接之以 s 步，其中在第 g 步内的操作交替地由2^ 1 个“ + ”接之以2^ 1 个 
“ - ”组成 ,q = 1,2,*** ,5 o 

[注意，这个排序方案可以通过相当简单的设备予以实施。这个设备的线路执行一个“洗牌和 
操作”步骤，以及把输出线反馈到输入。图57中的前3步当然可以 消去； 保留它们仅仅是为了使 
这个形式更清楚。 Stone 指出，在若干其它算法中也出现有相同型式的“洗牌操作”，诸如在快速傅 
里叶变换中（参见 4.6. 4-(40))]。 

► 14. [ M 27] ( V . E . Alekseev ) 设《 = [“： j 〖 ] … [ a r : j r ] 是一个《- 网络； 对于 我们定 

义= [ fi : ] … [ <_ i :夂_ i 乂]… [ :人] ，其中4和/是从&和夂而来，不过当和乂出现 

时（无论在哪），把 i , 改为人和把 j s 改为 i s 。 例如，如果 a = [ l :2][3:4][ l :3][2:4][2:3]， 则 a 4 = 

[1：4][3：2][1：3][2：4][2：3] 0 

a ) 证明 D n a = D n ( a s ) 0 

b ) 证明 （W = ( V ) 5 。 

cU 的一个共轭是形如（… （（ AV 0 …）~的任何网络，试证明 a 至多有 y — 1 个比较。 

d ) 设 g a ( sc ) 二 [x 以及 / fl (: r ) = (A V % ) A … A { x ir V x )r ) 0 试证明 g a ( x ) ~ V \ f a > 

U ) l〆 是 《 的一个共轭 I 。 

€)设是具有顶点 U ,《 !且对于，具有有向边 i s — j s 的有向图。试证明 or 是一 
个排序网络，当且仅当对于 l < i < n 和同《共轭的所有 〆 ，有从 f 到 i + 1 的一条有向通 

路[这个条件是稍微突出的，因为 G a 不依赖于《中比较器的阶]。 

15. [20] 试求4个元素的一个非标准排序网络，它只有5个比较模块。 

16. [ M 22] 证 明：下 列算法把任何一个排序网络…， [ UV ] 都变换成相同长度的一 

个标准的排序网络。 

T 1. 令 g 是使得的最小下标，如果这样的下标不存在，就停止。 

T 2. 对于在所有比较器乂]中把的所有出现改为并把的所有出现改为 
2 g 。返回 T 1 。 | 

因此，网络[4:1][3:2][1:3][2:4][1:2][3:4]首先变换成[1:4][3:2][4:3][2:1][4:2][3: 

1]，然后[1:4][2:3][4:2][3:1][4:3][2:1],然后[1:4][2:3][2:4][3:1][2:3][4:1]等等，直到得 
到标准网络 [1:4] [2:3] [2:4] [1:3] [1:2] [3:4] 为止。 

17. [ M 25] 令仏是恰有 r 个1的所有个0和1的序列〈:^，…，的集合。 证明： 

是在对的所有元素排序个网络中所需要的比较器的极小个数；％ (72) 是为排序 D tn U 
D ^_ 仏 所需要的比较器的极^ 个数； 而是为对排序所需要的比较器的极小个数。 
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► 18. [ M 20] 证明求 2 r - 1个元素的中值的一个网络至少需要（《 - l )「 lg (£ + 1)1 + rig / 1个比 
较模块[提 示： 见定理 A 的证明]。 

19 ■ [ M 22 ] 证明：对所有72 >2和 V 2 ( n ) = ^ 71 ~3 0 

20. [24] 证明 V 3 (5)-7 0 

21. [21] 真或 假：插 入一个新的标准比较器到任何标准排序网络中将产生另一个标准的排 
序网络 0 

22. [ MJ 7] 设 a 是任何?2-网络，并设工和 y 是 n - 向量。 

a ) 证明意味着 

b ) 证明 ： r • y^(xa )_(3^)，其中0：*3^ 表不点积 :c [：yi + …+ 。 

23. [ M 18] 设 a 是一个 Tz- 网络，证明有一个排列使得（加），= ; ，当且仅当在 D „ 中存 
在向量 x 和 : y 使得 :c 覆盖：1，（3^),=0和 ^( y ) = j o 

► 24. [ M 21 ] ( B . E . Alekseev ) 设 a 是 一 个 rz -网络，而且对于 1<々<”，令 ~ = mini ( pa ) k \ 

PJ ,R = m a x | (拎 , 表示可出现于输出线々中值的下限和上限。对于网络 ，= a [ 2 •: 
J 类似地定义“和 证明 

1 \ = ^ A lj , l \ ^ L { + Uj , u \ ^ u { + Uj - (n + l ) y Uj ^ ui V Uj 
[提 示：给 定1)„中的向量>2：和3；,有（加）,=(3^)广0,以：{：) = ~,以3；) = / ) ，求出1)，，中的一个 
向量 L 使 + U 

25. [ Am ] 设\和 w 如习题24中所定义的那样。证明集合 j ( A 0 Jf 在匕 中丨包 括夂和 
u k 之间以及“和&本身的所有整数。 

26. [ M 24] ( R . W . Floyd ) 设 a 是一个 n -网络。证明集合 D # = Ua | x 在认 中 1 可以由集合 
P n a = 丨扣 I 户在 P „ 中 I 确定； 反之，可由 D # 确定。 

► 27. [ M 20 ] 设 X 和: y 是向量，并设 xa 和，被排序，证明 （: cq : X ( jya ，当且仅当每从: y 中任 

取 J 个元素，我们都可以从 x 中选择 f 个元素，使得每个选定的： c 元素<某个选定的: y 元素。利 
用这一原理证 m ， 如果对任何矩阵先按行，后按列排序，则诸行仍保持有序。 

► 28. [ M 20] 下列图形说明，有可能利用输入元素系统地写出在一■个排序网络中所有直线上 
的内容的 公式： 


a 



c 


d 



a A 6 
a V 6 
c A d 
c\Z d 



(a A 6) A (c A d) 
(a V 6) A (c V d) 
(a A 6) V (c A d) 
(a V 6) V (c V d) 


# 

# 


(a A 6) A (c A d) 

((a V 6) A (c V d)) A ((a A 6) V (c A d)) 
((a V 6) A (c V d)) V ((a A 6) V (c A d)) 
(a V 6) V (c V d) 


利用交换律 x f\ y = y f\ x y xM y = y\J : c ，结合律 xA(yAz) = (xAy)Az i x\J(y\Jz) = (x\/y) 
V 之，分配律 x A (y\f z) = (x A y) \/ (x A z) , x M (y/\z) = (x\Jy)A(jc\/ 2 ) 吸收律八 (x \J y) 
= xV(xAy) = x 以及等幂律 1 2 ：六工 =_ 2 ：乂 _ 2 ： = _ 3 ：，可以把这个网络右端的公式分别简化为（ ^ 八 b 
\c \d) y (a Kb Kc)\J(a\b \d)\! (aNc Kd)\J (b he hd),(a hb)\J (a hc)\J (a Nd)\l (b 

(bl\d、\l {c f\d 、， a\J b\J c\J d 。 

证明，一般地 ， 1：^ ，…， ^ 1 的第 i 个最大元素由 “ 初等对称函数 ” 

= V \ 工 、!\ 0^[\ … 0C、\ 1 <Z_2 〈 … 〈夂 给出 [ 有 (=) 项被 V 在一起。 
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于是求极小花费的排序网络的问题，等价于用极小数量的“与/或”线路计算初等对称函数的问题， 
其中在每级上我们用> A 0和> V 0代替两个量/和0]。 

29. [ M 20 ] 设 和3^，又设 A <2：2< … q 是把诸 ：r 和诸 

合并的结果，应用运算符 A 和 V ，求出以： r 和 y 表达的每一个 z 的公式。 

30. [ HM 24 ] 证明 ：使 用习题28中的恒等式，可把任何包含 A 和 V ，以及独立变量，…, 

x n i 的公式，归结为一个“正则”的形式 n V r 2 …V m 其中 Ol ， 每个 r , 形为 A 丨5 I j 在 S , 中1， 
其中 S z 是丨1，2,…， n 丨的一个子集，而且当 Hj 时，集合 S , 不包括在 Sj 中。证明两个这样的正 
则形式对于所有的〜，…，^都相等的充要条件是它们恒等（准确到次序）。 

31- [ M 24] ( R . Dedekind ，1897) 设九是在习题30的意义下关于々，…，的不同正则形式 
的个数。 于是心 =1，心= 4和心=18,问心是多少？ 

32. [ M 28] ( M . W . Green ) 设 G x = 1 00,01, 11)， G 出是所有串孙的集合，使得 d ，( p ，( p，co 

的长度为2”- 1 且孙，伽，⑽及如在 G ,, 中。设 a 是由图49所示16排序器的前四级组成的网络。 
证明 D 16 a = G 4 , 并且证明，它恰有心+ 2个元素（参见习题31)。 

►33. [ M 22] 习题31中，并非〈^，…，^〉的函数的所有&都可以出现于比较器网络中。证 

明，函数 ( x 2 A jc 3 ) V (: c 3 Ax 4 ) 事实上不可能成为关于^ a 〉 的任何比较器网络 
的输出。 

34. [23] 下图是否是一个排序网络？ 



35. [20] 证明对于 l < z <; z ， 任何标准排序网络都必须至少包含每个 相邻的 比较器 [ i:f + 
1] 一 次 0 

► 36. [22] 图47的网络仅包含相邻的比较[以+ 1] ; 我们称这个网络为本原的。 

a ) 证明” 个元素的一个本原排序网络至少有 J 个比较器[提 示：考 虑一个排列的逆]。 

b ) ( R . W . Floyd ,1964) 设 a 是《个元素的一个本原网络，又设: r 是对于某个 f 使得 （ m ), 

〉 （*ra 的一个向量。证明 （ w ) 2 . >(》 a ),， 其中： y 是向量 〈 w，;i - 1，."，1〉。 

c ) 作为 b ) 的推论 ，一 个本原网络是一个排序网络的充要条件是，它把单个向量〈„,„ - 1，…， 
1〉排序。 

37. [ M 22] 对于的72个数的奇偶转 置排序 ，是如图58所示的 ，一 个排成类似砖块式 

的，具有 jn ( n - l ) 个比较器的，深度为；2层的网络（当《是偶数时有两种可能性）。这种排序在 

硬件中是特别容易实现的，因为仅仅交替地执行两类操作。证明，这样一个网络是一个有效的排 
序网络[提 示： 见习题36]。 



38. [43] 设 ]V 


n 


2 


，试求在形如 U -1，” -2,… ，1) 的杨氏表图和本原排序网络 [f 



m 參 


[心：心 +1 ]之间的——对应[由定理 5.1.4 H , 恰好有 
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_ NJ _ 

1 n - l 3^-2 5 »-3...(2 n - 3) 1 

个这样的网络]。提示 ：习题 36( c ) 表明，没有多余比较器的本原网络，对应于 5.1.1 小节中类似 
图1的多面体中从1 2… rz 到 n …2 1的通路。 



n = 5 n = 6 « = 6 


m 58奇偶转置排序 


39. [25] 假设已知 n 条线上的本原比较器网络正确地对单个输入1010…10进行排序（参见 
习题36,假定 n 为偶数）。证明它的“中间第三个”（由线「”/3"|到 「2 n /3 l ( 含两者）的所有比较器组 

成），将对所有输入进行排序。 

40. [ HM 44 ] 随机地选择比较器[2‘ 1 :“ + 1][彳 2 :6 + 1]"‘1^:2‘，+ 1],而且 i k e |1,2,-**,72 - 
1丨的每个值都同等可能；当这个网络包含类似图47的一个冒泡排序格局作为一个子网络时，这个 

过程停止。试证明，除了有 OU - 1 GGQ ) 的概率之外 〆 <472 2 +/^ lg 72。 

41. [ M 47] 随机地选择比较器 [ ii : : … [厶:人]，而且每个非冗余的选择 Kik 〈 Jk < 

n 同等 可能； 当已经得到一个排序网络时，这个过程停止。试估计 r 的预期的值；对于所有^ >0, 
它是。（《 1 + , )吗? 

► 42. [25] ( D.Van Voorhis ) 证明： S (/ z)>SU _ 1) + 「 lgn "|。 

43. [ 48 ] 试求具有少于 C ( m ， n ) 个比较器的 一 个 （w , w ) 合并网络，或者证明它不存在。 

44. [50] 对于某些《>8,求 SU ) 的精确值。 

45. [ M 20] 试证明，没有多个扇区输出的任何一个 （ l ， n ) 合并网络，至少有 「 lg («+ 1)"1层延迟。 

46. [30] ( M . Aigner ) 证明，使用如同习题6中那样的，进行同时不相交比较的任何算法，为 
把 7 ? 2 个元素同 72 个元素合并，所需要的极小阶段数至少是「 lg ( rn + 因此双调合并网络有最 

优延迟。 

47. [47] 对于某个 n ， 习题6的函数 TU ) 是否严格地小于 T ( n)l 

► 48. [26] 我们可以用另一种方式来解释排序网络，让每条线载有肌个数的一个多重集合， 
而不是单个数 r 在这种解释之下，操作 U : j ] 分别以： r , A a 和々 代替 A 和勺， g 卩个数％. 

tU ^中最小的 m 个和最大的 m 个（例如，图式 

一 {3,5}— f -{1,3} —— { l ,3}- f -{ l ,2} —— {1,2} —— {1,2} — 




{ 1 ， 8 } — • — { 5 , 8 } 


{5,8} 




{2,9} 


{ 5 , 8 } 



{2,9} ― f— {2 f 2} i {2, 3} 




{2,7} 


{2,7}—U{7,9} 


{5,7} 肀{2, 3} 


{2,3} 


{5,7} — 


{7,9}-i-{8,9} 


{8,9} 


图解了当 m =2 时的这个解释；每个比较器合并它的输入并把低的一半和高的一半分开）。 

如果 a 和6每一个都是 m 个数的多重集体，我们说当且仅当《 公 6 = a (等价地 a 
= b ， a 的最大元素小于或等于6的最小）。于是 a 穴 b《a Y 6。 


參 
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设 or 是一个 r 2- 网络，又设，…，: C „〉 是一个向量，其中每个 A 是 7? Z 个兀素的一个多重 

集合。证明，在上述解释中，如果 （ xa ), 不是《（说），，则在中有一个向量使得（％〉, = 1和 

( W ), = 0 [因此，如果我们以 m 路合并来代替比较，则 n 个元素的一个排序网络变成 mn 个元素 

的一个排序网络。图59所示为使用这种办法由4元排序器构造的8元排序器]。 

► 49. [M23 ] 使用习题48中的符号标记，证明 （x ^ y)^ z = x ^ (y Az ) 和 （: c ^ y)^ z = x 

^(y Yz ); 然而 （:r ^ y)^ z 不总等于 （x 久 z 、 欠 ly Az ), 而且 （ o : ^ y)^(x A z)^(y 穴 z ) 不 

总等于 x \^ y \^ z 中间的 m 个元素。对于这些中间元素，试借助于以及穴和 V 运算，求 
出一个正确的公式。 

50. [ HM 46] 考察习题48中定义的 A 和^操作 
的性质，是否有可能以某种漂亮的方式来表征这个 
代数中的所有恒等式，或者从有限的恒等式的集合 
来推导出所有的恒等式来？在这方面，诸如 x ^ x 

= 或者 ： c ^ (x ^ (x 久 （ 工 ^ 3^ ))) ~ x 

^ (x Y ： y ) 这样的恒等式，仅对 m ^2 成立，有较小 
的 兴趣； 仅仅考虑对于所有的 m 成立的恒等式。 



► 51. [ M 25] ( R . L . Graham ) 我们说比较器 [ z •: j ] 
在网络 ct l [ ij ] a 2 中是 多余的 ，如果对于所有向量 X ， 
(■^▲《（:^^^或对所有向量 ： c ， (xa\) i^-{xa x ) jo 


图 59 通过使用合并解释，从一个 
4-排序器构造一个8-排序器 


证明，如果 a 是具有 r 个非多余比较器的网络，则至少有不同下标的 r 个不同的有序对 （ f ， j )， 使得 


对于所有向量(加 ),（ 因此，不带多余比较器的一个网络至多包含$个模块）。 


► 52. [32] ( M . O . Rabin ,1980) 试证明，通过考虑图61所勾勒的形式的一个网络，来一般地 
判定一系列的比较器是否定义一个排序网络，是固有地困难的。把输入编号为別到 • rw 是方便 


的，其中 N = 2 mn + m +2 n ; 正整数 m 和 n 是参数。对于和1 <々 < 爪，第一个比较器 



图61 /72 = 3 ，n =5 的一族网络，其排序能力难以验证（见习题 52) 
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为 [j ^j + 2 nk ] o 然后对于我们有 [2 j - 1 :^][0:2 ; ],并行于只使用 > 2 / 2 的下标的一个 
特殊子网络。其次，对于，我们比较 [0 + 27? + )] 。最后对于〈: Ci ," •，: c „〉， 有一个完 

备的排序网络，其后为有 [0 :1.|[1:2]…其中 r = W 72 + rz + 1。 

a ) 借助于特殊子网络的特性，描述由这样的一个网络排不了序的所有输入〈^, a ，…， 《 r N >。 

b ) 给定如同 （ mV ： y 2 V DA G 2 V % Vy 4 ) A …这样的一组短语，说明怎样来构造一个特殊的 

子网络，使得图61对所有输人排序当且仅当这些短语是不可满足的[因此在 7.9 节的意义下，判 
定一个比较器序列是否形成一个排序网络是一个协 NP 完全的]。 

53. [30] (周期的排序网络） 下列两个16-网络图解在 t = 4 的情况下，对于72 =2 ; 的^级网 
络的一般递归 构造： 



( a ) ( b ) 


如果我们从0到 f -1 对输入线进行编号，则在情况 （ a ) 中的第 Z 级有比较器其中 
i mod j = - 1); 如同在双调合并中那样，总共有个比较器。在情 

况 （ b ) 中，对于第一级比较器为 [2 j :2 J / + 1]; 当 2< Z < z ， 对于，第/ 
级比较器为[2_; + 1:2 >/ +2〃 1 _ / ] ; 如同在奇偶合并中那样，总共有（〖-1)2〃 1 + 1个比较器。 

如果对于某个々>1，在定理 5.2.1 H 的意义下，输入的个数是 Y -阶的，试证明两个网络产生 
的输出均为阶。因此，我们可以通过把它们传送到两个网络的任一个 r 次，来对 W 个数进行 
排序[当/很大时，这些排序网络大约使用两倍于箅法 5.2.2 M 的 比较； 但总共的延迟时间和在图 
57中相同，而且实现更简单，因为重复地使用相同的网络]。 

54. [42] 试分析由 m 排序器模块，而不是2排序器模块，组成的排序网络的性质（例如， G . 
Shapiro 已经构造了如下网络 
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它使用14个4分类器来对16个元素进行排序，这是最好的可能吗？试证明，当 w 充分大时， m 2 
个元素可以通过最多16级的 m 排序器来加以排序）。 

55- [23 ] —个排列网络是 一个模块序列其中每个模块 [ z : j ] 可以通过外部 
控制来设置，是将输人原样输出，还是将：^和:^交换（不管々和 x , 的值是什么），并且每个输人 

的排列可以通过模块的某种设定，在输出线上得以实现。每个排序网络显然是一个排列网络，但 
是反之则不 成立： 试找出5个元素的一个排列网络，它仅有8个模块。 

► 56. [25] 假设二进位向量0；6认未被排序。试证明，存在一个标准的《-网络尽管它能 
对的所有其它元素进行排序，但它不能对 a 进行排序。 

57. [M35] 偶奇合并类似于 Batcher 的奇偶合并，只是当 mn>2 时在做类似于 （1) 的一组 
「 m /2 l +「 W 2 l - l 个比较-交换之前，它递归地把序列 mod 2+ "… ，、- 3 ,4-^同^，％，…， 

y2l r./21-l) ，以及把 〈Ih + Dmodhi ，…，同 〈_ y 2，_ y 4 ，…，: V 2 h /2」〉 合并。试证明，无须做多于 
双调方法的比较，偶奇合并即可实现双调合并的最优延迟时间 rig ( m + n )~|。 实际上，即证明由 

偶奇合并所做的比较次数 v 4( m ， r ?)， 满足 C(m , , 77 )^ {m + ) lg min ( m , n) + m + 

3 

~J n ° 


习题——第二组 

下列习题涉及了同排序有关的若干不同类型的最优性问题。前面的少数问题，是以 P . N . 
Armstrong 和 R . J . Nelson 早在1954年即研究过的，冒泡排序有趣的“多头”推广为基础的[见 L 7. S . 

Patem s 3029 4 13,3034102]。 设 I 二 h 2 < …< h m 二 n 是一个递增的整数 序列； 我们称它做长 
度为 m 和间距为 n 的一个“头序列”，并用它来定义一种特殊类型的排序方法。记录 R ir ■- f R N 
的排序分若干次扫描进行，每次扫描由 N + 72 - 1个步骤组成。在第 J 步上 （> =1 - 7?，2 - r 2 ，…， 
iV -1)， 应考察并在必要时重新排列记录尺^⑴七—^小…七+心小使得它们的键码成为有序 
的（这时我们说 ⑴ ，…，是“在读写头之下”。当 _;• + h [ k ]<\ 或〉 iV 时，不考虑记录 
+ a [ ^ ] ;从效果上看键码…被处理做-°°，而 K n+1 , K n + 2 ,…被处理做+ 00 。因 

此当或 / i [2] 时，步骤：；实际上是显然的）。 

例如，下表示出了当 m = 3 ,N = 9 以及 = 1 y h 2 = 2, h 3 =4 时一个排序的一次 扫描： 

K _ 2 K _! K 0 Kj K 2 K 3 K 4 K s K 6 K 7 K 8 K 9 K l0 K n K l2 
j = _ _ 314592687 

j = ~2 __314592687 
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132456789 

—• — __ _ 

132456789 _ 

132456789 

当 m 二 2， h ^ l 及 A 2 = 2时，这个多头的方法简化成为冒泡排序（算法 5.2.2 B )。 

58. [21 ] (James Dugundji ) 证明如果对于某个6 ，有 + = + 则上 

边定义的多头排序器将在有限次扫描中，最终完成对任何输入文件的排序。但是如果对于 
< m，AU + l ]> hU ] + 2, 则这个输入可能永远排不好序。 

► 59. [ 30 ] (Armstrong 和 Nelson ) 设对 w ， A [ 々 + 1 [々 ] + 是，又设 - 1，证明 

经第一次扫描后最大的 n - 1个元素总是被送到它们最终自的地[提示 ：使用 0—1 原理； 如果对 
一些0和1进行排序，且1的个数少于 rz ，证明不可能所有的头都读出1,除非所有的0都在这些 
头的左边]。 

证明当这些头满足给定条件时，排序将在至多 r ( N - i )/(«- i ) i 次扫描中完成。是否有一个 
输入文件，它需要这么多遍扫描？ 

60. [26] 如果 n = N ， 证明： 当且仅当对于 + 时，第一次扫描可以 

保证把最小的键码放置到位置上。 

61. [34] ( J . Hopcroft ) iV 个元素的一个“完全排序器”，是 N = 77 的一个总在一次扫描中完 
成的多头排序器。习题59证明，序列…，二<1,2,4,7,“.，1+ ( I ” 给出一个 

完全排序器，该排序器对于 N = ( = ) + 1 个元素，使用 m = ( V^n + l )/2 个头。例如，头序列 

<1，2,4,7，11,16,22>是对于22个元素的完全排序器。 

证明，事实上头序列<1,2,4,7,11,16,23〉是对于23个元素的一个完全排序器。 

62. [妁]给定 m , 分析使 m 头完全排序器存在的最大 JV 。 N =0( m 2 ) 吗？ 

63. [23] ( V . Pratt ) 若对，每个头心都在位置 2 A _ 1 上，现要对0和1的序列 q , 

1 进行排序，其中当且仅当_；是2的一个乘方时~=0,问需要多少次扫描？ 

64. [24 ] (一致排序） 5.3.1 小节中图34的树在第一级的两个分支中进行了 2:3的比较， 
而在第二级的每个分支中比较 1:3( 除非该比较是多余的）。 一 般地说，我们可以考虑在这种意义 

下一致的所有排序算 法类； 假定个对偶 l ( a ，6)| l < a <6< N | 已经安排成一个序列 

( a lt bi ) ,( a 2， b 2 ) r '' y ( a Mt b M ) 

我们可以逐个地对未知结果的对进行比较 K ： fli : K 6 i ，圪 2 :^ 2 ，…诸对偶 U ，6) 共有 iW ! 个排列， 

其中每个都定义了一个一致的算法。一致排序的概念是 H 丄 . Beus 给出的 L/AOVf 17(1970),482 
〜 495], 他的工作为下面的几个习题给出了提示。 

借助于图论来正式地定义一致排序是方便的。设 G 是顶点|1,2,…， N | 上的有向图，没有有 
向边，对于 i = l ,2, …， M ， 我们对 G 加上有向边 如下： 

情况1 G 包含从七到 6,. 的一条路径。把有向边 a ^ b { 加到 G 中。 

情况2 G 包含从到&的一条路径。把有向边乂 — a ,. 加到 G 中。 

情况3 G 不包含从 a , 到6,或6,到 a , 的路径。比较:仏，如果 < K b ，则把有向边 a ,- 

t I I I 

^ b t 加到 G 中； 如果则把有向边 b t — a t 加到 G 中。 

i i 
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我们主要关心由一个一致排序算法所做的键码比较次数，而不是关心用什么方法避免多余 
的 比较； 图 G 不必明显地构造，这里使用它仅仅是用它来帮助定义一致排序的概念。 

我们也将考 虑有限制的一致排序 ，其中在上述的情况1、2和3中，仅仅计算长度为2的路径 
(一个有限制的一致排序算法可能会进行某些多余的比较，但习题65说明在有限制的情况下分析 
要更简单些）。 

证明当对偶序列按字典次序排列 

(1,2)(1,3)(1,4)-(1, N )(2,3)(2,4)-(2, N )-( N - 1, N ) 

时，有限制的一致算法和一致算法是一样的。证明，事实上，当键码不同且快速排序的多余比较如 
习题 5.2.2-24 中那样被消除时（忽略在快速排序中实际进行的比较次序，仅仅考虑哪些键码对被 
比较过），这两个算法都等价于“快速排序”（算法 5.2.2 Q )。 

65. [ M 38 ] 如同在习题64中那样，给定一个对偶序列 （ 心 ，幻） … （ a M ， 6 M ) ，设 c ,. 是使得 

< i 且使（〜 , bi) yiaj f bj) f (a k ，心） 形成 一 个三角形的对偶 （ j ，々）的数目。 

a ) 证明通过有限制的一致排序算法所做的平均比较次数为 E- M 2/(^ + 2 )o 

I 一 1 

b ) 使用 a ) 和习题64的结果来确定快速排序执行的非多余比较的平均次数。 

c ) 合并排序引起了（但不等价于）下列的对偶序列： 

(1，2)(3,4)(5,6) — (1，3)(1，4)(2,3)(2,4)(5,7)〜（1，5)(1，6)(1，7)(1，8)(2,5)-- 

试问以这个序列为基础的一致方法，平均说来，比快速排序执行更多还是更少的比较？ 

66. [ M 29] 在最坏的情况下，快速排序进行次比较。是否所有有限制的一致排序算法 


(在习题63的意义下）在其最坏的情况下，都执行( 



次比较? 


67. [ M 48 ] ( H . L . Beus ) 就所有（有限制的）一致排序算法而言，快速排序是否有极小的平均 
比较次数？ 

68. [25 ] Howard B . Demuth 的博士论文 “Electronic Data Sorting”（Stanford University,October 

1956) 也许是详细讨论计算复杂性问题的第一篇论文。 Demuth 考虑了排序设备的若干抽象模型， 
并建立了每个模型可达到的平均和极大执行时间的下限和上限。他的最简单的模型“循环无逆 
存储”（见图60)，是本习题的主题。 

考虑一台机器，它在若干次扫描中对尺 n 排序，其中每次扫描都包含下列 N +1 步： 
步驟1置 R ^ R ,( R 是机器内部的一个寄存器）。 

步驟； 对于或者是⑴置 尺 ^ —尺，尺 —反； 或者是 （ U ) 

置 R — 广 R t ，JR 保持不变。 

步骤 AT +1 置 Rn — Ro 

问题是找出一种方式，每次在方案 （0 和 （ U ) 中进行选择，以便把进 
行排序所需要的扫描次数极小化。 

证明对这个模型来说，“冒泡排序”技术是最优的。换句话说，证明 
每当只时选择方案 G ), 以及每当 R > R t 时选择方案 U ) 的这个策 

略，将达到极小的扫描次数。 



They that weave networks shall be confounded . 


- Isaiah 19 ： 9 


图 60 —种设备，对它 

来说冒泡排序是最优的 


參 
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5.4 外部排序 

现在该是我们来研究当有待排序的记录数大于计算机的高速内部存储器所能 
容纳的数量时，岀现的一些有趣问题的时候了。外部排序与内部排序十分不同，因 
为对外部文件进行存取的有效技术受到相当严格的限制，尽管在两种情况下排序问 
题都是把一个给定文件排成非减的次序。对外部排序来说，必须把数据结构安排成 
使得相当慢的外部存储设备（磁带、磁盘、磁鼓等），能快速地满足排序算法的要求。 
因而，我们已经研究过的大多数内部排序技术（插入，合并，选择），实际上对于外部 
排序是无用的，从而有必要重新考虑全部的问题。 

例如，假设要对一个有500万个记录 …尺 的文件排序，而且每个记 

录尺是20个字长的（尽管键码&不必这么长）。如果这些记录中一次只能有100 

万个装入一台计算机的内部存储器中，则应怎么做呢？ 

一个相当明显的解决方法是，先独立地对5个子文件 R \"' R 1000000 » ^ L 000001 … 

R 2000000 ，…， R 4000001 …只 5000000 排序，然后把得到的子文件合并在一起。幸而，这个合 

并过程仅仅使用非常简单的数据结构，即以与栈或队列相同的顺序方式被访问的线 
性表； 因此合并可以毫无困难地在最少费用的外部存储设备上完成。 

刚才描述的过程——先内部排序，再外部合并——的使用是非常普遍的，我们 
将把对于外部排序的研究主要集中在这个主题的各种变形上。 

通过初始的内部排序阶段产生的记录的递增序列，在关于排序的公开著作中通 
常称 做串； 这个术语是相当广泛的，可惜的是，它同计算机科学的其它分支中另一种 
更广泛的用法相抵触，在这种更广泛的用法下，串是字符的任意序列。在关于排列 
的研究中，已经给一个文件的排好序的段落取了一个好名字，即习惯上它被称做递 
增的路段或简单地说是路段，因此，我们将继续使用“路段”这个词来描述一个文件 
的已排好序的部分。用这种方法，就可能把“路段的串”和“串的路段”两者区别开来 
而不致引起混淆。 

现在首先考虑使用磁带作为辅助存储时的外部排序过程。遵循算法 5.2.4 N，S 
和 L 的中心思想，用磁带进行合并的最简单和具有吸引力的方法也许是平衡 的两路 
合并。在这个过程中，我们使用4个“工作带”。在第一阶段，由内部排序产生的递 
增路段被交替地放置在磁带1和磁带2上，直到输入被穷尽为止。然后磁带1和磁 
带2被重绕到它们开始的位置，从这些磁带上取出路段再次合并，得到其长度为原 
来路段长度2倍的新 路段； 这些新路段也像它们形成时那样交替地写到磁带3和磁 
带4上（如果磁带1包含的路段比磁带2多一个，则假定磁带2上有一个长度为0 
的额外的虚拟路段），然后所有的磁带都被重绕，而且磁带3和磁带4的内容被合并 
成交替地记录到磁带1和磁带2上的4倍长度的路段。这个过程继续进行，每次把 
路段的长度加倍，直到仅仅剩下一个路段（即完全排好序的文件）为止。如果在内部 
排序阶段产生了 S 个路段，而且如果2^<5<2\则这个平衡的2路合并过程对 
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所有数据恰好进行了 々 =「 lgSl 次合并扫描。 

例如，在上述通过容量为1 000 000的一个内部存储对5 000 000个记录排序的情 

况下，可知 S = 5 o 排序过程的初始分布阶段按如下方式把5个路段放置到磁带上： 

磁带 1 尺 1 ••• 只1000000 ;尺 2000001. ••尺3000000 ;只 4000001 " •尺5000000 

磁带2 R 100001 … R 2000000 ;尺3000001 ••• R 4000000 ( 1 ) 

磁带3 (空） 

磁带4 (空） 

然后，第一次合并扫描，按照它读磁带1和磁带2的顺序，在磁带3和磁带4上产生 
更长的路段如下（一个虚拟的路段已经隐式地加在磁带2的结尾，使得磁带1上的 
最后的路段只 __ r ••尺5__仅仅拷贝到磁带3上）: 

磁带 3 2000000 ;尺400000 T ••尺5000000 ( 2 ) 


磁带4 


尺 2000001 


# 4 參 



4000000 


在所有的磁带被重绕之后，对于数据的下一遍扫描产生（再次简单地拷贝路段 
只 4 __…及5__;但是如果我们以8 000 000个记录开始，则这时磁带2就将包含 

尺 4000001 … 尺 8000000 了）： 

磁带 1 尺 1 …尺4000000 (3) 


磁带 2 只4000001 “ •尺5000000 

最后在另一轮重绕之后，在磁带3上产生…只 5 __，排序即告完成。 

平衡的合并可以容易地推广到对于任何 了 >3的 T 条磁带的情形。选择任意 
数 P ，1< P < 丁，而把丁条磁带分成两“边”， P 条磁带在左边，丁 - P 条磁带在右 
边。初始的路段尽可能均匀地分配到左边的 P 条磁带上；然后从左到右进行 P 路 
合并，紧接着从右到左进行 （ T - P ) 路合并，等等，直到排序完成为止。 P 的最好选 

择通常认为是「 T /2~|( 见习题3和 4) 。 

平衡的两路合并是 T = 4 ,P = 2 时的特殊情况。用更多条磁带重新考虑上面的 
例子，取 T = 6 和 ： T = 3。 现在的初始分布是 

磁带1 ^1000000 ;R 3000001 - ^ -^4000000 

磁带2 R looooor ••尺 2000001 ? ^ 4000001. ••尺 5000000 ( 4 ) 


磁带 3 尺2000001 ’“P 3000000 

第一遍合并扫描产生了（在磁带3上已经假定有一个虚拟路段） 

磁带4 Ri kt , R 3000000 

磁带5 尺3000001 …只5000000 O 


磁带6 (空） 

第二遍合并扫描完成了这个工作，把 M …尺 5 ()()咖()放置到磁带1上。在这个特殊的 

情况下 ， T = 6实际上和 T = 5是一样的，因为第6条磁带仅当 S >7 时才使用。 

三路合并实际上比两路合并要求更多的计算机处理时间，但是比起读、写和重 
绕磁带所需要的时间来 ，一 般均可忽略。我们可以仅仅考虑磁带移动的数量，而得 
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到一个相当好的运行时间的估计。 （4) 和 （5) 中的例子只要求对数据扫描两次，而 ： T 

= 4时须扫描3次。相比之下 ， T = 6时这个合并所花费的时间仅仅约为前者的 
2/3。 

平衡合并十分简单，但是如果我们更仔细地观察，则立即发现，它不是处理上边 
讨论的特殊情形的最好途径！不从 （1) 进行到 （2) 并重绕所有的磁带，而是在磁带3 

和磁带4分别地包含 尺1 … 尺2000000 和 尺2000001 …只 4000000 之后，即停止第 一 遍合并扫 

描，且使磁带1做好读 ^4000001 ***^5000000 的准备。然后重绕磁带2,3,4,最后通过在 

磁带2上进行三路合并来完成这个排序。则在这个过程中从磁带上读记录的总数 
量，同在平衡方案中的5 000 000 + 5 000 000 + 5 000 000 = 15 000 000相对照，将仅 
仅是4 000 000 + 5 000 000 = 9 000 000。一台灵巧的计算机应有能力做到这一点！ 

其实，当有5个路段和4条磁带时，通过把它们如下分布，我们甚至能做得更 
好： 

磁带1只 1 …尺 1000000 ; 尺 3000001 …只 4000000 
磁带2 R 1000001 • ••只 2000000 i ^ 4000001 … R 5000000 

磁带3只 2000001 …只 3000000 

磁带4 (空） 

然后对磁带4进行三路合并，紧接着进行磁带3和磁带4的一次重绕，再紧接着进 
行在磁带3上的三路合并，仅仅通过读3 000 000 + 5 000 000 = 8 000 000个记录就 

完成了排序。 

而且，当然，如果有6条磁带，则可以把初始的路段放置到磁带1到磁带5上， 
并且通过对磁带6进行五路合并，在一次扫描中就完成排序。这些考虑说明简单的 
平衡合并不是最好的，故考虑改进的合并型式是有趣的。 

本章的以下部分,将更深入地分析外部排序。在 5.4.1 小节中，我们考虑“内部 
排序”阶段，它产生初始的 路段; 其中特别有趣的是“替代选择”技术。它利用在大多 
数数据中存在的次序，来产生其长度实际上大大超过内部存储容量的初始路段。 
5.4.1 小节也讨论了适合于多路合并的数据结构。 

5.4.2 小节到 5.4.5 小节讨论了最重要的合并型式。当我们学习这些型式的 
特征时，最好先不忙于去跟那些烦人的磁带机和有待排序的实际数据打交道，而是 
先有一个相当朴素的磁带排序的概念。例如，可以冒失地（如上边所做的那样）假 
定，原来的输入记录在初始分布阶段神秘地 出现； 事实上，这些输人记录可能占用1 
条磁带，而且也可能甚至充满若干卷磁带，因为磁带并非无限长！最好是，在对经典 
的合并样式获得原则性的理解之前，忽略这些过于实际的考虑。在 5.4.6 小节，将 
讨论强烈地影响合并型式选择的现实中的约束，这个讨论使我们又回到实际中来。 
5.4. 6小节中，使用在实际中出现的各种各样的假定，来比较 5.4. 2小节到 5.4. 5小 
节的基本合并型式。 

5.4. 7小节和 5.4. 8小节中讨论了不是以合并为基础的解决外部排序的一些 
其它方法。最后， 5.4. 9小节通过讨论诸如磁盘和磁鼓等这样的海量存储的重要排 
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序问题，完成了对于外部排序的综述。 

在最初编写本书时，磁带是大量使用的，而磁盘驱动器还是昂贵的。但在20世 
纪80年代，磁盘大为改进，而到了 20世纪90年代末，它们在大多数的计算机系统 
中，几乎完全替代了磁带机。因此曾经一度是很关键的磁带合并模式的课题，对于 
当前的需要来说，已变成了只有很有限的关 系了。 

但是许多模式仍是十分优美的，而且相关的算法反映了早年在计算机科学中所 
完成的某些最好的研究 成果； 这些技术实在太漂亮了，不应仓促地扔进历史的垃圾 
堆去。确实，这些方法中把理论同实际相结合的方式是特别有教益的。因此，以下 
我们以它们在最后谢幕之前可能是最隆重的出场这样一种方式，对它们进行仔细和 
完整的讨论。 

For all we know now 9 


these techniques may well become crucial once again . 


PAVEL CURTIS (1997) 


习 



1. [15] 正文建议首先进行内部排序，紧接着进行外部合并，为什么不能去掉内部排序阶段， 

而是从一开始就把记录合并成越来越长的路段？ 

2‘ [10] 当举例的记录使用一个3-磁带平衡方法以 P = 2 进行排序时，相当 

于 （1) 〜 （3) 磁带的内容序列将是什么？请把这同4-磁带合并 比较； 在初始的路段分布好之后，对 
所有的数据要做多少次扫描？ 

3 . [20 ] 说明当户（丁 — (丁 - P 广时，应用于 S 个初始路段的平衡的（尸，丁_ 

P ) 路合并花费次 扫描； 而当 P k ( T ~ P ) k < S < P k + l ( T - P ) k 时，它花费2々+ 1次扫描。 

给岀对于 （ a ) 当 T = 2 P 时，作为 S 的函数的扫描的精确次数，和 （ b ) 对于一般的 P 和丁，当 S 

—〜时，扫描的近似次数的一个简单公式。 

4. [ HM 15] 对于 〈丁， P 的什么值使得尸（了-尸）取极大？ 

5 . 4.1 多路合并和替代选择 

在 5.2.4 小节中，我们研究了以两路合并为基础的内部排序方法，即把两个有 
序的序列合并成一个有序序列的过程。不难将其推广成 P 路合并的思想，其中 P 
个输入路段被合并成一个输出路段。 

假定已经给定 P 个递增的路段，即，其键码按非减次序排列的记录。把它们合 
并的明显方式，是考察每个路段的第一个记录，选择其中键码最小的那个；然后输出 
此记录，同时从输入中撤 消它； 之后重复这一过程。在任何给定的时刻，我们都仅需 
考虑 P 个键码（每个输入路段一个键码），并选择最小的。如果有两个或者更多个 
最小的键码，那就任意选择一个。 

当 P 不太大时，通过简单地进行 P -1 次比较来求当前所有键码的最小者，是 
一 种方便的选择方法。但当 P 为8或更大时，通过使用 5.2.3 小节所描述的那样一 
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株 选择树 ，我们就可以节省工 作量； 于是一旦建立了树，每次就将仅仅需要大约 lg P 
次比较。 

例如，考虑四路合并的情形，用两级选择树： 


步骤1 



087 

170 

154 

612 


503 

908 

426 


653 


OO 


步骤2 


087 



503 

170 

154 

612 


908 

426 


653 



步骤 3 


087 154 



503 oo 

170 908 ⑺ 

(426 653 oo 

1612 oo 


步驟 9 087 154 170 426 503 612 653 908 ⑺ 


在这个例子中，每个路段的末尾都放置一个附加的键码“〜”，使得合并优雅地结束。 
由于外部合并一般都涉及非常长的路段，故添加磁带有〜键码的记录后，无论是数 
据的长度或合并的工作量都不会有实质性的增加，而且这样的“哨兵”记录经常用作 
一项界定一个文件上路段的有用技术。 

在上述过程开始之后，每一步都把最小的元素换成同一路段中随后的元素，并 
且改变在选择树中对应的路径。于是，该树在步骤1中包含087的3个位置在步骤 
2中被 改变； 在步骤2中包含154的3个位置在步骤3中被改变，等等。在选择树中 

用另一个键码来代替一个键码的过程 ，称为替代选择。 

我们可以从几个方面来考察这种四路合并。从一种观点看，它等价于像协同子 
程序那样并发执行的3个两路 合并； 选择树中的每一个节点，都代表一个包含在并 
发合并过程中的序列。选择树的操作实质上同一'个具有“最小者先出”原则的优先 
队列 一 样。 

如同 5.2.3 小节一样，我们可以使用一个堆代替一株选择树，以实现优先队列 
(当然堆将安排成最小元素出现在顶上，而不是最大的元素在顶上，应颠倒等式 
5.2.3-(3) 的顺序）。由于一个堆并没有固定的大小，因此我们避免使用“〜” 键码; 
当堆成空时，合并完成。另一方面，应用外部排序时通常都要处理相当长的记录和 
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键码，故堆中填入指向键码的指针以代替键码 本身； 下边我们将看到，选择树可以以 
这样一种方便的方式由指针表示，在这种情况下，它们可能优于堆。 

“失利者”的树 图62所示为具有12个外部（方框)节点和11个内部（圆圈）节 
点的完备二 叉树; 如果把这株树看做是选择最小键码的一次锦标赛的话，则外部节 
点中已填入键码，而内部节点中已经填入“胜利者”。每个节点上边小号数字标明了 
为完备的二叉树分配连续存储位置的传统方法。 

当最小的键码061用图62中选择树的另一个键码来代替时，为确定选择树的 
新状态我们需要考察键码512,087和154,而非其它现有的键码。把此树看做一场 
锦标赛，这3个键码就是在竞赛中同061对垒的失利者。这提示我们，在这株树的 
内部节点中真正应该存储的是每次对垒的 失利者 ，而不是胜 利者； 这样，为更新这株 
树所需要的信息就很容易得到了。 



图62使用一个其节点编号为1到23的 
二叉树来选择最小键码的一次锦标赛 

图63为与图62同样的树，但它表示失利者而不是胜利者。在这株树的顶部已 
经附加了一个额外的数0,指出这场锦标赛的冠军。注意，除了冠军之外每个键码 
都恰巧是一次比赛的失败者（参见 5.3.3 小节），所以每个键码都在一个外部节点中 
出现一次和在一个内部节点中出现一次。 

实际上，图63底部的外部节点表示存于计算机存储器中的相当长的记录，而内 
部节点表示指向这些记录的指针。 注意， P 路合并恰巧调用 P 个外部节点和 P 个内 
部节点，每个都在相邻的组中，于是这本身就提示了若干有效的存储分配方法。不 
难看岀，如何利用替代选择的“面向失利者” 的树； 我们将在本节的稍后部分稍微详 
细地讨论这个算法。 

由替代选择所产生的初始路段 如果基本上用输入数据本身进行 P 路合并， 
则替代选择技术也可以用于外部排序的第一阶段！在这种情况下，把 P 取得相当 
大，使得内部存储器基本上已被充满。当输出一个记录时，它就被下一个输入记录 
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图63和图62相同的锦标赛，但显示的是失利者而不是胜利者; 

冠军出现于最顶上 


所代替。如果新记录的键码小于刚才输出的键码，则不能把它包括在当前的路段 

中； 否则可以用通常的方式把它送入选择树中，并且它将形成当前正在产生的路段 

的一部分。于是每个路段就能包含多于 P 个记录，尽管任何时候在选择树中决没 

有多于 P 个记录。表1所示为 P = 4 的这一过程 ：磁带 圆括号的数将要包括进随后 
的路段中。 


表1 四路替代选择的例子 



存储内容 



输 出 

503 

087 

512 

061 

061 

503 

087 

512 

908 

087 

503 

170 

512 

908 

170 

503 

897 

512 

908 

503 

(275) 

897 

512 

908 

512 

(275) 

897 

653 

908 

653 

(275) 

897 

(426) 

908 

897 

(275) 

(154) 

(426) 

908 

908 

(275) 

(154) 

(426) 

(509) 

(路段结束） 

275 

154 

426 

509 

154 

275 

612 

426 

509 

275 


等等 


形成初始路段的这一重要方法，首先是由 Harold H . Seward 描述的[硕士论文, 
:al Computer Laboratory Report R -232 ( Mass . Inst , of Technology , 1954), 29 

他给岀的理由使人们确信，当应用于随机数据时，这些路段将包含 1.5 P 个以 
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上的记录。1950年左右 ， A . I . Dumey 在谈到工程研究协会设计的 一 部特殊排序设 
备时，也提出了这个思想，但他没有发表。“替代选择”这一名称，是由 E . H . Friend 
杜撰的 L/ACM 3(1956) ，154]，他解 释说： “提不出所产生序列的预期长度的公式, 
但是实验提示 2 P 是一个合理的预测。” 

为了说明 2 P 确是预期的路段长度， E . F . Moore 发现了一种聪明的方式，他把 
这个情况同在一个圆形轨道上的扫雪机做了比较 （ U . S . Patent 2983904 (1961), 
columns 3〜4)。考虑图64中所 7 K 的情况；雪片均匀地落在 一 ^条圆形的路上， 一 台孤 
独的扫雪机不断地清扫雪。 一 旦已经把雪扫出路外，它就从这个系统消失。可以通 
过实数 X 来指明路标， 0< X <1; 落在位置 X 的雪片表示其键码为 X 的输入记录，而 
扫雪机表示替代选择的输出。扫雪机的基本速度同它所遇到的雪的高度成反比，且 
情况是完全平衡的，即在路上雪的总量在所有时刻都恰巧是 P 。 每当扫雪机通过点 
0时，便在输出中形成一个新的路段。 

在这个系统已经运行一段时间之后，显然，直观上它将趋于一个稳定状态，在这 
个状态下，扫雪机以恒速运行（由于这个轨道的圆形对称性）。这意味着当遇到扫雪 
机时，雪处于常数高度中，而且如图65所示，这高度在扫雪机前面线性地降低。由 
此推出，在一个循环（即路段长度）中所扫除的雪的体积是任何一个时候存在的量 
(即 P ) 的两倍。 



图64在环形圆圈上连续不停运行的扫雪车 

在许多商业应用中输入数据不是完全随机的；它已经有某种程度的既定次序。 
因此由替代选择产生的路段很可能包含甚至 2 P 个以上的记录。我们将看到，外部 
合并排序所需要的时间在很大程度上受初始分布阶段所产生的路段数的支配，因而 
替代选择显得特别 可取; 其它类型的内部排序由于存储大小的限制，将产生大约两 
倍之多的初始路段。 
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下雪 



图65横断面，示岀当这个系统处于它的“稳定状态” 

时机犁前雪的髙度变化 

现在让我们详细考虑由替代选择建立初始路段的过程。下列算法是由 John R . 
Walters,James Painter 及 Martin Zalk 给岀的，他们在 1958年把它用于 Philco 2000 的 

合并路段程序中。它加入了一个很好的方法，通过相当简单和一致的逻辑来建立选 
择树的初态，并区分了属于不同路段的记录，以及清理最后一个路段（由替代选择产 
生的最后路段的适当处理，是带点窍门的，对于程序员说来它势必是一个令人困惑 
的难点）。基本的思想是把每个键码都当作一个对偶 （ S ， i <)， 其中 K 是原来的键 
码，而 S 是这个记录所属路段的编号，当这样扩展的键码按字典次序排列，并以 S 
作主键码，以 K 作辅键码时，我们就得到由替代选择产生的输岀序列。 

以下的算法使用了包含 P 个节点的一个数据结构来表示选 择树; 假定第 7 (0< 
_/< P ) 个节点 X [_;] 包含从 LOC(X[j])^L 0 + cj 开始的 c 个字，它既表示图63中的 

内部节点号 h 又表示外部节点号 P + J 。 在每个节点中有若干命名了的 字段： 

KEY =存储在这个外部节点中的 键码； 

RECCED =存储在这个外部节点中的记录（包括 KEY 作为一个子字 段）； 

£/^£^=指向存储在这个内部节点中的“失利者”的 指针； 

RN = 由 LOSER 指出的记录路 段号； 

PE = 指向这株树中在这个外部节点上方的内部节点的 指针； 

PI =指向这株树中在这个内部节点上方的内部节点的指针。 

例如，当 P = 12 时，图63的内部节点号5和外部节点号17都将通过字段 KEY 
二 170， LOSER = L 0 + 9 c (外部节点号21 的地址 ）， PE = L 0 + 8 c , PI = L 0 + 2 c SX [5] 

中表 7 K 岀来。 

字段 PE 和 PI 有常数值，所以它们不必明显地岀现于存储 器中； 然而，外部排序 
的初始阶段，有时跟不上输入/输出设备的速度，故通常值得把这些多余的值作为数 
据存起来，而不是每次重新计算它们。 

算法 R (替代选择） 这个算法顺序地从一个输入文件读入记录，并把它们顺序 
地写在一个输岀文件上，产生 RMAX 个路段，除最后的路段舛，每个路段的长度均大 
于或等于 P 。 共有 P >2 个节点 X [0]， …， X [ P _1]， 每个节点所含的字段如上所 
述。 

R 1 •[初始化]置 RMAX — 0， RC —0， LASTKEY — oo，Q — LOC ( X [0]) ， 以及 RQ —0 

w 

( RC 为当前路段的编号，而 LASTKEY 为最后输岀记录的键码 o LASTKEY 的初 
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值应当大于任何可能的 键码； 参见习题8)。对于任何0<7<尸，当 J = LOC 
( X [ j ]) 时，置 X [ j ] 的初始内容 如下： 

LOSER ( J ) — J ; RN ( J ) — 0; 

PE ( J ) — L0C(X[L(P 十 i)/2j]); PI ( J ) — loc(x[L ； /2J]) 

( LOSER ( J ) 和 RN ( J ) 的赋值都是人为的办法，为的是通过考虑一个虚构的编 
号为0的路段来建立树的初态。该路段决不会输出，这只是一个技巧，见习 
题 10。） 





图66用替代选择作初始路段 

R 2 •[路段结束？]如果 RQ = RC ， 则继续转到步骤 R 3。 （否则 RQ = RC + 1，此时我 

们刚刚完成编号为 RC 的 路段； 一个合并型式所要求的对于排序的随后扫描 
的任何特殊动作将在这时完成）。如果 RQ > RMAX ， 则停止，否则置 RC — RQ 。 
R 3 •[输出树顶](现在 Q 指向“冠军”，而 RQ 是它的路段号）如果 RQ 关0,则输出 

RECORD(Q) ，并置 LASTKEY—KEY(Q) 0 

R 4 •[输人新记录]如果输入文件穷尽了，则置 RQ — RMAX +1 且继续转到步骤 

R 5 0 否则置 RECORD(Q) 为输入文件的下个记录。如果 KEY(Q)<LASTKEY (于 

是这个新记录不属于当前的路段），则置 RQ—RQ+ 1，然后如果 RQ > RMAX , J 0 IJ 

置 RMX — RQ 。 

R 5 •[准备更新](现在 Q 指向一个新记录，其路段号是 RQ ) 置 T—PE(Q)(T 是一 

个指针变量，它将沿树上移）。 

R 6 •[置新的失利者]如果 RN ( T )< RQ 或者如果 RN ( T ) = RQ ， 并且 KEY(LOSER 

( T ) XKEY ( Q ) ，则对换 LOSER ( T )^ Q ， RN ( T ) ㈠ RQ (变量 Q 和 RQ 记住当前的胜 

利者和它的路段号）。 

R 7 •[上移]如果 T = L 0 C ( X [1]) 则返回到 R 2, 否则置 T — PI ( T ) 并返回 R 6。 

I 

算法 R 中的输入和输出一次只涉及一个记录，然而实际上最好是读和写相当大 
块的记录。因此，存储器中有某些输入和输出缓冲区，它们实际上在幕后降低 P 的 
大小，我们在 5.4.6 小节说明这一点。 
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x 路段的延迟重新组成 使用我们称之为自由度的概念， R. J.Dinsmore[CACM 
8(1965),48] 提出了改进替代选择的一个非常有趣的方法。如同我们已经看到的， 
磁带上在一个路段之内的每组记录是按非减次序排好的，于是它的头一个元素是最 
低的而最后元素是最髙的。在通常的替代选择过程中，一个路段内每组的最低元素 
决不小于该路段中前面那组的最高 元素； 这是“1个自由度”。 Dinsmore 提议把这条 
件放松成为 “ m 个自由度”，其中每组的最小元素可以小于前一组的最高元素，只要 
它不小于本路段前的 m 个不同的组中的最高元素就行。 如同以前一样，在单个组 
内的记录是有序的，但相邻的组不必是有序的。 

例如，假设每组恰有两个 记录； 下列组序列是具有3个自由度的一个 路段： 

I 08 50 I 06 90 I 17 27 I 42 67 I 51 89 I (1) 

该路段将要包含的下一个组，必须以一个不小于|50,90,27,67,891的第3个最大元 

素（即 67) 的元素开始。如果仅有两个自由度的话，序列 （1) 将不是一个路段，因为 
17既小于50,也小于90。 

具有 m 个自由度的一个路段，当它在排序的下一个阶段被读人时，可以被“重 
新组成”，使得对于所有实用的目的说来，它都是通常意义下的一个路段。我们从把 
m 个组读到 m 个缓冲区开始，对它们进行 m 路 合并； 当穷尽了一个缓冲区时，以第 
m + 1 个组代替它，等等。用这种办法，我们可以重新把这一路段恢复成一单个序 
列，因为每个新近读的头一个字都必须大于或等于刚穷尽的组的最后一个字（免得 
它小于在它之前的 m 个不同组中的最高元素）。这个重新组成路段的方法，实际上 
就像对于所有的输人组都使用一台磁带机的 m 路合并一样！重新组成过程的工作 
方式像一个协同子程序，它被调用来一次发送路段的一个记录。‘我们可以对从不同 
的磁带机上来的具有不同自由度的路段加以重新组成，并且合并得到的路段，所有 
这些都在同一个时间进行，这种方法实际上就像本节开始所说明的，四路合并可以 
想像为一次进行若干个两路合并一样。 

对这个有独创性的思想难以进行精确分析，但 T . O . Espelid 已经说明了如何来 
扩充扫雪机的类似性，以得到对于这个特性的^个近似公式 [BJT 16 (1976),133 〜 

142]。根据这个同经验测试很一致的公式，当6是块大小且772>2时，路段长度将 
大约是 


9 p , / _ c \( 2P + (m - 2)6 \ 

2P (m 1>5) (2P + (2m ~3)b) b 

这样一种增加尚不足以证明由此而增加的复杂性是合 理的； 另一方面，在第二个排 
序阶段，如果有足够的地方可安排相当大量的缓冲区，它可能是有利的。 

" 自然的选择 W . D.Frazei •和 C. K . Wong (黄泽权） [CACM 15 (1972),910 〜 
913] 剖析了增加由替代选择产生的路段长度的另一方式。他们的想法是像算法 R 
那样做，但当一个新记录的键码小于 LASTKEY 时，这个新的记录被输出到一个外部 
库中，并读人另一个新的记录。这个过程延续到这个库被一定数量的记录 K 充满 
为止; 这时，当前路段的剩下部分从该树中输出，而存于库中的项目即用作下一路段 

• 244 • 



5.4 外部排序 


的输入。 

库的使用趋向于产生比替代选择更长的路段，因为它避免了属于下个串的“死 
的”记录，不让它们来充斥 该树; 但它需要额外的时间以从库进行输入和输出到库 
中。当 P ^> P 时，某些记录有可能两次入库，但当 P '< P 时，这将绝不可能发生。 

Frazer 和 Wong 对他们的方法进行了广泛的实验测试，得知当 P 相当大（比如 
说 P >32) 和 fzP 时，随机数据的平均路段长度由 eP 给出，其中 e 二 2. 718是自 
然对数底。由于这个现象，以及由于这个方法是对于简单的替代选择的一种渐进改 
良，自然地使他们把他们的方法称为 自然的选择。 

通过再次考虑图64的扫雪机并且应用初等微积分，可以证明路段长度的“自 
然”定律。设 L 是道路的长度，并设： c ( z ) 是在时间/(0</<了）时扫雪机的位置。 
当雪暂时停止而扫雪机回到它开始的位置（清除了在它的通路上剩下的 P 个单位 
的雪）时，假定在时间： T 时库是满的。除了“平衡条件”不同外，这个情况和以前是 
一 样的；代替在所有时刻道路上有 P 个单位的雪，我们有 P 个单位的雪在扫雪机之 
前，而且库（在扫雪机之后）增加成个单位。如果 h ( x , t)dx 个记录被输出， 
/ i (: r ， Z ) 是在时间 Z 时的雪的高度，且位置 : r = 1(0( 这里采用适当的单位），则在一 
个时间间隔心内扫雪机前进 dx 。 

因此,对所有^，/1(^) = /1(工，0) +幻，其中尺是落雪的速度。由于在存储 
器中的记录数保持不变 ，所以 A (1 ， Z ) 也就是在扫雪 机之前 输人的记录数，即 

见图67)。于是 

_ K(L - x ) / 9 s 

d 7 _ h { x . t ) ⑷ 



L 一 3 ^ 


KdtZL 



输入雪 



m 67 


等量的雪被输人和输出；扫雪机在时间 d / 内移动 cLr 


幸而，结果证明每当 ： C = 和0<6<了时 ， /lU “）是等于 iCT 的常数，因为在扫 
雪机通过点： C (0 后，雪稳定地降落到该位置达 T - t 个时间单位，在它返回前还要 
加上 Z 个时间单位。换句话说，在已达到稳定状态的前提下，每个旅程都是一样的， 
扫雪机看到在它的旅程中所有的雪都处于同样的高度，因此清扫的雪的总量（路段 
长度)是 LKT ; 而存储器中雪的数量是在时间： T 后清除的数量 ， gp KT(L _ 

工⑺）。使得: c (0)=0 的 (2) 的解为 

x { t ) = L (1 - e _ " T ) (3) 

因此 P = = ( 路段长度） / e ; 而这就是我们所要证明的。 

习题 21—23 说明，这个分析可以推广到一般的，的 情况; 例如，当， = 2 P 时， 
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平均路段长度得知是 e e ( e _0) P ， 其中0= )/2,这大概是还没有人能立 

即猜出的 结果； 表2说明了路段长度对于库大小的依 赖性； 通过查这张表，在一个给 
定的计算机环境中自然选择的有用性即可估计出来。对于 < P 的库大小的表项，使 
用习题27中一个改进的技术。 

如同 T . C . Ting (丁子锦）和 Y . W . Wang (王亚威）在 Comp . 20 (1977),298- 
301中所讨论的那样，延迟路段重新组成和自然选择的思想可以联合在一起。 

表2自然选择产生的路段长度 


库大小 路段长度 k + d 库大小 路段长度 k + d 


0.10000 P 

2.15780 P 

0.32071 

0.00000 P 

2.00000 P 

0.00000 

0.50000 P 

2.54658 P 

0.69952 

0.43428 P 

2.50000 P 

0.65348 

1.00000 P 

2.71828 P 

1 . 00000 

1.30432 P 

3.00000 P 

1.15881 

2.00000 P 

3.53487 P 

1.43867 

1.95014 P 

3.50000 P 

1.42106 

3.00000 P 

4.16220 P 

1 ■ 74773 

2.72294 P 

4. 00000 P 

1 • 66862 

4. 00000 P 

4.69446 P 

2*01212 

4,63853尸 

5.00000 P 

2.16714 

5.00000 F 

5.16369 P 

2.24938 

21.72222 P 

10 -00000 尸 

4.66667 

10. 00000 P 

7.00877 P 

3.17122 

5.29143 P 

5.29143 P 

2.31329 


注： 在习题22或习题 27( 当々= 0)中定义了量々+ <9 


”替 代选择的分析现在让我们转回到没有辅助库的替代选择的情况。扫雪机 
的类比，给了我们在稳定状态下由替代选择所得到的平均路段长度的一个相当好的 
估计,但是通过应用我们在 5.1.3 小节中做的关于排列中路段的研究的事实，有可 
能获得算法 R 的许多更精确的信息。为此目的，假定输入文件是0和1之间的独立 
随机实数的一个任意长的序列，是更为方便的。 

设 

gp ( z l , z 2 r '^ z k ) = Yj apUi ’ l :， …， lk ) z l : z l 《，” z l k k 

是由在这样一个文件上的 P 路替代选择所产生的路段长度的生成函数，其中 
心，…， 4) 是第一个路段长度为~，第二个长度为 Z 2 , …，第々个长度为4的概率。 
下列“独立性定理”是一个基本的定理，因为它把这个分析归结为 P = 1 的情况： 

定理 K ，之 2 ， “. ， A) = 尽 1( 之 1 ，之 2,… ， A) P 

证明设输入键码为…。按照它们在这株树中所处的外部节点的 

位置，算法 R 把它们划分为 P 个子 序列；包含尤 的子序列由值&，…，尤确定。 

因此每一个子序列是0和1间独立的随机数的一个独立序列。进而，替代选择的输 
出恰是对这些子序列进行一次 P 路合并所应得 到的； 一个元素属于一个子序列的 
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第 J 个路段的充要条件是，它属于由替代选择产生的第 j 个路段（因为在步骤 R 4 

中 ， LASTKEY 和 KEY ( Q ) 属于同一个子序列）。 

换句话说，我们也完全可以假定，算法 R 正被应用于 P 个独立的随机输入文 
件，而且步骤 R 4 从对应于外部节点 Q 的文件读下一个 记录； 在这个意义下，该算法 
等价于一个 P 路合并，并以“下坡”来标志诸路段的结束。 

于是，当且仅当诸子序列有长度分别为 （ Z n ，…，/^)，…， （ Z P1 ，…， /&) 的路段 

时，输出中有长度为（~，…， O 的路段。其中心是满足=匕的某些非负 
整数，由此得出 一 

a P Ui ， …， 4) = 2 〜（心丄 ，…， ^…々（心 ，…， 心） 

【 •• 十…+ /〜= /■ 


而这等价于所求的结果 



l k 


我们已经在 5.1.3 小节讨论了当 P = 1 时，第々个路段的平均长度 L ， 在表 

5.1.3-2 中列出了这些值。定理 K 蕴含对于一般的 P ，第 k 个路段的平均长度是当 
P = 1 时的平均长度的 P 倍，即 L ^ P ; 而且方差也是 P 倍，所以路段长度的标准差同 

成比例。这些结果是 1958 年左右由 B.J.Gassner 首先导出的。 

于是，对于随机数据，由算法 R 产生的头一个路段大约包含 （ e - 1) P ^1.718 P 
个记录。第二个路段，大约是 （ e 2 - 2 e ) P 〜 1. 952 P 个记录。第三个，大约是 
1.996 P ; 而随后的路段，将非常接近于包含 2 P 个记录，直到我们得到最后两个路段 

(见习题 14) 为止。这些路段长度的大多数标准差都近似于# 6 -10)尸〜0.934 
/PICACM6 (1963),685 〜687]。进而，习题5 . 1 .3-10 说明，前 A 个路段的总长度 

将相当接近于( 2 々 - + ) P , 并有((吾々+吾) P ) 1 ’ 2 的标准差。在习题 5.1. 3 _ 9 和11 

中导岀了生成函数^^(^，^，…，^和 

上边的分析已经假定输入文件是无限长的，但定理 K 的证明表明，在至少包含 
h +…+ 4 + P 个元素的任何随机输入序列中，都将得到相同的概率 a p { l x ，…，4)。 

所以上述结果在小的标准差的观点下，对于比如说大小为 N >(2 k + 1 )P 的文件是 
可应用的。 

我们将看到某些应用，其中合并型式要求某些路段是递增的，而某些是递减 

的，由于在一个递增的路段结束时，在存储器中累积的剩余往往包含平均比随机数 

更小些的数，故顺序方向的改变减少了路段的平均长度。例如，考虑一台扫雪机，在 

它每次到达一条直路的终点时必须跑一个 U 形 转弯； 它将非常快速地通过刚才扫 

过的区域。当颠倒方向时，随机数据的路段长度将在 1.5 P 和 2 P 之间变动（见习 
题24) 0 
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习 



1. [10] 在本节开头的四路合并例子中，步骤4是什么？ 

2. [12] 如果以612代替键码061，对于图63的树将做什么变动？ 

3. [16] ( E . F . Moore ) 当应用四路替代选择于下列一串单词时，产生的输岀是什么? 


fourscore and seven years ago our fathers brought forth on this continent a new nation conceived in 


liberty and dedicate! to the proposition that all men are created equal. 

使用通常的字母顺序，把每个词处理作一个键码。 

4. [16] 把四路自然选择应用于习题3的句子，使用容量为4的一个库。 

5. [00] 真或假 ：仅当 P 是2的乘方时或者是两个2的乘方之和时，使用一个树的替代选择 
才有效。 

6. [15] 算法 R 指明，必须应如何稍微修改这个算法，以使它对于所有 P >1 成立？ 

1. [17] 当没有任何输人时，算法 R 做什么？ 

8. [20] 算法 R 利用了一个人为的键码 “ oo ”， 它必须大于任何可能的键码。证 明：要 是真有 
一个键码等于⑺的话，这个箅法可能失误，并说明在真正的 m 的实现并不方便的情况下，如何来 
修改这个算法？ 

► 9. [23] 你将怎样修改算法 R , 使得某些指定的路段(依赖于 RC ) 按递增次序输出，而其它的 
按递减次序输出？ 

10. [26] 在步骤 R 1 中， LOSER 指针的初态通常不对应于任何实际的锦标赛，因为外部节点 P 
十 j 不会处于内部节点之下的子树中，说明为什么箅法 R 仍然有效[提示 ：如果 在步骤 R 1 中, 
| LOSER ( LOC ( X [0])),*-*， L 0 SER ( L 0 C ( X[P - 1])) 丨被置成 | LOC ( X [0]) ， ■■•, L 0 C ( X [ P - l])l 的任何 

一 个排列，则这个算法是否有效]。 


11. [ M 25] 真或假 ：假定 输入是随机的，在步骤 R 4 中 KEY ( Q)<LASTKEY 的概率近似于 


2 


12. [ M 46] 详细分析算法 R 的每一部分被执行的次数，例如，在步骤 R 6 中所做的交换有多 
频繁？ 

13. [13] 为什么由替代选择产生的第二个路段通常都大于第一个路段？ 

► 14. [ HM 25 ] 用扫雪机的类比来估计，由输人数据的一个长序列通过替代选择所产生的最后 
两个路段 的平均长度。 

15. [20] 真 或假： 由替代选择产生的最后路段决不包含多于 P 个记录，请讨论你的答案。 

16. [ M 26] 试求一个文件只…将由 P 路替代选择在一次扫描中完全排序的一个“简 

单的”必要和充分 条件。 当输入是|1，2,…， N | 的随机排列时，作为 P 和 iV 的函数发生这种情况 
的概率是什么？ 

17. [20] 当输入键码处于递减次序下，^卩 — 时，由算法 R 产生的输出是什 


么？ 

► 18. [22] 如果算法 R 再次应用于由算法 R 产生的一个输出文件，则将发生什么情况？ 

19. [ HM 22 ] 用扫雪机的类比来证明，由替代选择产生的第一个路段的长度近似为 （ e - l)P 

个记录。 

20. [ HM 24] 当 P = K 时，由自然选择产生的第一个路段约为多长？ 

► 21. [ HM 23] 试确定当 P 乂 P 时，由自然选择产生的路段的近似长度。 




248 




5.4 外部排序 


22 . [ HM ^] 这一习题的目的是确定当尸/>^>时，在自然选择中得到的平均路段长度。令^ 
二是+ 0 是一个的实数，其中々二 U 」 和 0 二 xmod 1 ，并考虑函数 FU ) = &( 0 )， 其中圮（ 0 )是由 
生成函数 

- e~ fe /(l - ze l ~ z ) 

k>Q 

定义的多项式，于是心 0 ) = 1 ，心（ 0 )^-心心（ 0 ) = 6 2 - 6 -如^^ 2 ，等等。 

假设一台扫雪机在时间 0 启动，开始模拟自然选择的过程，并假设在了个时间单位之后，恰 
有 P 个雪花已经落在它后面。这时，第二台扫雪机开始相同的旅程，它在时间，+ 了时所占的位 
置就是第一台扫雪机在时间〖时所占的位置。最后，在时间 AC 丁，恰有 〆 个雪花落在第一台扫雪 
机 之后； 它在一瞬间把剩下一段路全扫完，随之即告消失。 

利用这一模型来表示自然选择的过程，说明当 

k 

PIP = k + 1 + e 〜 FU) _ Y]F(k - j)) 

时，得到一个长度等于 e d F ( K ) P 的路段。 】 

23. [ HM 35] 上题分析了当记录按同一次序（即先进先出）写入和读出库时的自然选择。如 

果以完全随机的次序读入上一路段存进库中的内容，就像库中的记录在两个路段之间已整个地 
重“洗”了一样，试求应得到的近似路段长度。 

24. [ HM 39 ] 本题的目的是分析因偶然改变替代选择中路段的方向所引起的效果。 

a ) 设…， a ) 是如同在定理 K 中那样定义的一个生成函数，但同时，^个路段中的 

每个都已被确定是递增还是递减的。例如，我们可以说所有奇数编号的路段是递增的，所有偶数 
编号的路段是递减的。试说明对于这种类型的 Y 个生成函数的每一个，定理 K 都成立。 

b ) 作为 a ) 的推论，我们可以假设 P = l 。 我们也可以假定，输入是 0 和 1 之间的独立随机数的 
一个一致分布序列。设 


a(x y y ) 二 



如果 jc < y 

如果 : c > 3 ; 


若给定某个递增路段以工开始的概率为 /(2 ) d：r ,试证明 f a (<r 为下一个路段 

以: y 开始的概率[提 示：当 ： c 和: y 已知时，对于每个72 > 0 ,考虑 z < X 】 < …> ： y 的概率]。 

c ) 考虑以概率改变方向的路段；换句话说，在第一个路段后每个路段的方向，有 9 = (1- 
f ) 的机会被随机地选择成和以前的路段一样，而选择相反方向的机会是 〆 于是当 p ^ Q 时，所有 


的路段都有相同的 方向； 当 p = l 时，这些路段都改变 方向； 而当 f = ^■时，这些路段是独立地随 
机的）。设 

r\ 广 1 

f\{x) = 1 — P o,{x jy)f n (l - x)dx ^ q a(a: y y) f n {x)dx 

J 0 Jo 

说明当第 U - l ) 个路段递增时第 „ 个路段以: r 开始的概率为 AU ) cb :， 当第 u - 1 ) 个路段递减 

时第 71 个路段以: C 开始的概率为/„(1_ x)dx 0 

d ) 求对于“稳态”方程 

r 1 r 1 pi 

f(y) - P a(x ,y)f(l - x)dx + q a(x 9 y) f{x)dx , f(x)dx = 1 

J o J o J o 

的一个解[提示 ：证明 / G ) 是独立于: c 的]。 
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e ) 证明 c ) 中的序列 人 U ) 相当迅速地收敛到 d ) 中的函数。 

f ) 证明，以 x 开始的一个递增路段的平均长度为 e 1 ^ 

g ) 最后，把上述这些结果归结到一起，以证明下列 定理： 在替代选择中，如果连续一系列路段 
的方向是独立地以概率 p 逆转的，则平均路段长度趋于 (6/(3 + f )) P (关于此定理的/> = 1的情 

况，首先是由 Kmith 导出的 [CACM 6(1963) ，685〜 688] ;/> 二士的 情况则首先由 A . G . Konheim 于 

1970年加以证明）。 

25. [ HM 40 ] 考虑下列 过程： 

N 1 •读一个记录到容量仅为一个字的“库”中，然后读另一个记录 R 并令 K 是它的键码。 

N 2 .输出这个库，置 LASTKEY 为它的键码，并置这个库为空。 

N 3 .如果 K < LASTKEY ， 则输出 R 并置 LASTKEY — K ， 然后转到 N 5。 

N 4 .如果库非空，则转到 N 2; 否则把 R 送入库中。 

N 5 •读入新记录 R ， 并设 K 是它的键码。转到 N 3。 | 


这实际上等价于 P = 1 和 P / = 1 或2的自然选择（取决于你是选定在库满的时刻来弄空它， 
还是在它大约溢出了的时刻弄空它），惟一的区别是它产生递减的路段，而且它决不停止。对于本 
题的目的说来，后边的异常情况是方便的和无害的假定。 

如同在习题24中那样进行，设 f n (x y y)dy6x 是恰在第次执行步骤 N 2 之后 （ LASTKEY 和 K 

的值分别是1和 3；) 的概率。证明存在一个变量的函数心（ X )，使得当 时人 = 


而当 J >：y 时人 （1，： y ) = _ e ' v ( g „( x ) — (: y ))。 这个函数 由关系式 h (： c ) = l ， 


Sn + l ( ) 


e u g n (u)du 



o 


dv(v + 1) dw (( e I; - \ )g n (u) + g fl (v)) 



X 



dv 



du((e v - l)g n {u) + g n (v)) 


来定义。进一步说明，第 n 个路段的预期长度为 


dx 


^y(gA^)(^ y - 1 ) + gn(y)) (2 - 


2 


y 



cLc(l - x)g„(x)e 


[注意 ：这些 方程的“稳定状态”的解显得非常 复杂； 它的数值解已经为 J.McKerma 得到，他说明这 
些路段长度趋于 2.61307209 的极限值。定理 K 不能应用于自然选择，所以 P = 1 的情况对其它 
的 P 行不通]。 

26. [ M 33 ] 把习题25中的算法当作庐=1 
第一个路段的预期长度如下 

a ) 证明第一个路段长度为 n 的概率是 


时自然选择的定义，对任何 r >0, 求当 


时 


n 



n 



n 


n + r + 1) 


b ) 通过规则 



定义“相关联的斯特林数 



■ ■ 

n 



■ m - 



，证明 
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c ) 证明第一个路段的平均长度因此是1，其中 


r 4 ^ + 1 

► 27. [ HM 30 ] ( W . Dobosiewicz ) 当对于 〆 < P 使用自然选择时，在库变满时我们不必停下形 
成一个 路段； 像在替代选择中一样，我们可以把不属于当前路段的记录存进主优先队列中，直到 
剩下当前路段的，个记录为止。于是我们可以把它们“喷”到输出中并以库的内容来代替它们。 

比起在习题21中分析过的较简单方法，这个方法有多好？ 

28. [25] 正文中仅仅考虑了所有有待排序的记录都有一个固定大小的情况，对于可变长的 
记录，替代选择应如何做才好？ 

29. 考虑已经右穿线了的一个完全二叉树的 Y 个节点，下面为々=3时的 图示： 




(同 2.3.1-(10) 做比较，顶上的节点是表头，而虚线是穿线链接。在本习题中，我们不关心排序，而 

是像在图63中一样，当在节点1上面加上类似表头的节点0时，关心完全二叉树的结构）。 

说明怎样把一个大的失利者树的个内部节点指定到 Y 个宿主节点上，使得 ：（ i ) 每个宿 

主节点恰保留大的树的 2 n 个 节点； （ ii ) 大树中相邻的节点或者被指定到相同的宿主节点上，或者 

被指定到相邻的（链接的）宿主 节点； （ iii ) 在大的树中没有两对相邻节点在宿主树中被同一个链所 

分开[因此在一个大的二叉树网络中，多个虚拟处理器可以被映射到实际的处理器上而不会造成 
通信链接中的过度拥挤]。 

30. [29] 试证明，任何满足 （ i )，（ ii ) 和 （ Hi ) 的节点的宿主图在节点之间必然有至少公+2*- 1 
-1 条边(链接）。在这个意义下，如果则上题中的构造是最优的。 

*5.4.2 多阶段合并 


现在我们已经看到可以如何构造初始路段，我们将考虑各种型式，这些型式可 
被用来把这些路段分布到磁带上，并把它们合并在一起直到仅剩下一个路段为止。 

从假定有3条磁带 T 1， T 2 和 T 3 可资利用 开始； 在 5.4 节开始处所描述的“平 
衡合并”技术，可以对 P = 2和 ： T = 3使用，这时它采取如下的 形式： 

B 1. 交替地在 T 1 磁带和 T 2 磁带上分布路段。 

B 2. 把 T 1 和 T 2 的路段合并到 T 3 上； 然后如果 T 3 仅包含一个路段时便停止 
B 3. 把 T 3 的路段交替地拷贝到 T 1 和 T 2 上，然后返回到 B 2。 ■ 

如果初始分布扫描产生 S 个路段，则第一次合并扫描将在 T 3 上产生 「 S /2] 个 

路段，第二次合并扫描将产生「 S /4] 个，等等。于是，如果说 17< S <32, 则我们将有 

1趟分配扫描，5趟合并扫描，以及4趟拷贝扫描。 一 般地说，若 S >1， 对于所有数 
据的扫描次数是 2「 lgSl 。 

在此过程中的拷贝扫描是不需要的，因为它们并不减少路段数。如果我们使用 
一种两阶段的过程，则有一半的拷贝可以避免。 
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A 1. 在磁带 T 1 和 T 2 上交替地分布初始路段。 

A 2. 把 T 1 和 T 2 上的路段合并到 T 3 上; 然后如果 T 3 仅包含」个路段，则停止。 
A 3. 把 T 3 上一半的路段拷贝到 T 1 上。 ' 

A 4 .把 T 1 和 T 3 的路段合并到 T 2 上； 然后如果 T 2 仅含一个路段，则停止。 
A 5. 把 T 2 上一半的路段拷贝到 T 1， 返回 A 2。 ■ 


对数据的扫描次数已经减少到|~「101 + 士，因为步骤八3和八5 仅仅做“半次 
扫 描”； 因此节省了大约25%的时间。 

如果我们从 T 1 上的个路段和 T 2 上的个路段开始，这里圮和圪^是 
连续的斐波那契数，则实际上可以完全消去拷贝。例如，考虑 n =7 ,S = F „ + F_ l 


13 + 8: 

阶段 

-21 的 情况： 

T 1 的内容 

T 2 的内容 

T 3 的内容 

注释 

1 

1 ， 1 ， 1 ， 1 ， 1 ， 1 ， 1 ， 1 ， 1 ， 1 ， 1 ， 1，1 

1,1,1,1,1,1,1,1 


初始分布 

2 

1,1,1,1,1 


2,2,2,2,2,2,2,2 

把 8 个路段合并到 T 3 

3 


3,3，3，3,3 

2,2,2 

把 5 个路段合并到 T 2 

4 

5,5,5 

3,3 

— 

把 3 个路段合并到 T 1 

5 

5 

―— 

8,8 

把 2 个路段合并到 T 3 

6 

— 

13 

8 

把 1 个路段合并到 T 2 

7 

21 



把 1 个路段合并到 T 1 


例如，若把每个初始路段的相对长度定为1，则“2,2,2,2,2,2,2,2”表示相对长度为 
2的8个路段，斐波那契数在这个图表中是无所不在的！ 


只有阶段1和7对数据进行了完全的 扫描； 阶段2仅仅处理初始路段的16/21； 
阶段3仅处理15/21，等等，因此如果我们假定初始路段都有近似相等的长度，则“扫 


描”总数就成为 （21 + 16 + 15 + 15 + 16 + 13 + 21)/21 = 5 y c 通过比较，以上的两阶 


段的过程将要求8次扫描以对21个初始的路段进行排序。我们将看到，一般地，这 
“斐波那契”型式近似地要求 1.041 gS + 0.99 次扫描，使得它同一个4-磁带平衡合并 
相匹敌，然而它只要求3条磁带。 


同样的思想可以推广到： T 条磁带，对任何丁>3,使用（: T -1) 路合并。例如我 
们将看到，4-磁带的情形只要求对数据进行大约 .7031 gS + 0.96 次扫描。推广的形 


式涉及推广的斐波那契数。考虑下边6-磁带的 例子: 


阶段 T 1 


T 2 T 3 T 4 T 5 T 6 



28 I 24 



2 

3 

4 

5 

6 
7 





129 1 



I 6 

I 2 


65 1 


I 12 

I 8 


5 16 

I 4 


9 8 

5 8 


17 4 

9 4 

5 4 

33 2 

17 2 

9 2 

5 2 

33 1 

17 1 

9 1 

5 1 


处理的初始路段 
31 + 20 + 28 + 24 + 16- 129 

16x5 = 80 

8 x 9 = 72 

4 x 17 = 68 

2X33 = 66 

1 x 65 = 65 

IX 129 = 129 
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这里 1 31 代表相对长度为1的31个路段，等 等； 这里已经从头到尾使用了五路合并。 

这一 * 般的型式是由 R . L . Gilstad 提出的 [ Proc. Eastern Joint. Computer Conf . 18 

(1%0)，143 〜 148]。 他把它称做 多阶段合并。 3-磁带的情况已经较早地为 B . K . 

Betz 发现 [unpublished memorandum , Minneapolis-Honeywell Regulator Co . (1956) ] 0 

为了如同上边的例子中那样进行多阶段的合并工作，我们在每个阶段之后，需 
要使诸路段在磁带上构成“完全的斐波那契分布”。通过由底向上读上面的表，可以 
看到当 T 二6时，前7个完全的斐波那契分布是丨 l ，0,0,0,0 Ul ， l ， l ， l ， lKU ，2, 
2,2，1}，|4,4,4,3,2|，|8,8,7,6,4}，|16，15，14，12,8}和131，30,28,24，16|，我们面 
临的较大问 题是： 

1. 这些完全的斐波那契分布所基于的规则是什么？ 

2. 如果 S 不对应于一个完全的斐波那契分布，则我们怎么办？ 

3. 我们应该怎样设计初始的分布扫描，使得它在磁带上产生所希望的配置？ 

4. 作为 S (初始路段个数）的函数，一个 T - 磁带多阶段合并要求对数据进行多 
少“次”扫描？ 

我们将依次地讨论这4个问题，首先给出“容易的答案”而后进行更加详细的分 
析 。 

完全的斐波那契分布可以通过周期地转动磁带的内容来向后运行而得到。例 
如，当 ： T = 6时，我们有下列的路段 分布： 


级 

T1 

T2 

T3 

T4 

T5 

总数 

最后的输出将在 

0 

1 

0 

0 

0 

0 

1 

T1 

1 

1 

1 

1 

1 

1 

5 

T6 

2 

2 

2 

2 

2 

1 

9 

T5 

3 

4 

4 

4 

3 

2 

17 

T4 

4 

8 

8 

7 

6 

4 

33 

T3 

5 

16 

15 

14 

12 

8 

65 

T2 

6 

31 

30 

28 

24 

16 

129 

T1 

7 

61 

59 

55 

47 

31 

253 

T6 

8 

120 

116 

108 

92 

61 

497 

T5 


n c n 

n + 1 a n + b n a n + c n a n + d n 






n 



T ⑷ 

TU — 1) 


( 1 ) 


在初始的分布之后，磁带 T 6 将总是空的。 

从级 n 到级 n + l 进行的规则表明，在每一级中都有条件 

^71 ^11 ^72 ^ YI ( 2 ) 

成立。事实上，从 （1) 容易看出 

_ - 1 

^ n 一 a ”— 1 + 6 n —\ — Cl n _ ^ + CL n _2 

cn _ — 1 + d n - \ — d n _ j H - ci n _2 ci n -3 
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bn 二 a n-i + c n -i - a n ^ Y + a n ^ 2 + 3 + a n ^ 4 

a n = a 77-l + ^V-I - ^n-1 + 以 n-2 + ^n-3 + 4 + (2”_ 5 

其中 a 0 = 1 ，而且对于 ？2 = -1，- 2，- 3，- 4 我们令 a n = 0 o 


(3) 


% p 阶斐波那契数定义为 

F(/) = F ( /.\ + 巧巧 + … + Fi P J p 对于 72 > p 

F ( n p) = 0 对于 ( 4 ) 


F ( p t\ = 


换句话说，我们开始有 />- l 个 0 ,然后是 1 ，然后每个数是前边 p 个值之和。当 p = 

2 时，这是通常的斐波那契数列^对于更大的 p 值，这个序列似乎首先是由 v . 
Schlegel 在 £7 Progreso Matemitico 4(1894) ，173〜174上加以研究的 。 Schlegei 导岀 
了生成函数 


⑴ 之” =_ zP 1 _= zP ~ zP 

n >0 n \ — — z p 1_2之 十 之户 + 1 


(5) 


(3) 中最后的等式表明在一个6-磁带多阶段合并期间，在 T 1 上的路段数是第5阶斐 
波那契数 a n = F [ 5 l 4 o 


一般地说，如果我们置 P = 了-1，则 T 条磁带的多阶段合并分布将以同样方式 

对应于第 P 阶斐波那契数。对于 第々 条磁带在完全 的第” 级分布中得 
到 


F ^ p -2 + F ( /+) p — 3 + - + F 
个初始路段，因此在所有磁带上的初始路段总数为 


(F) 

+ 々 一 2 


= PF^p-2 + (P - 1)pT + ) p _ 3 + …+ Fi p _\ (6) 

这样就解决了“完全的斐波那契分布”的问题。但如果对于任意 n ， s 不恰巧等 
于则我们应做什么呢？而且开头在这些磁带上我们怎样得到路段呢？ 

当 S 不是完全的(有少数值是这样的）时候，我们还可以像在平衡的 p 路合并 
中那样做，加上人工的“虚拟路段”后使得可以假想 S 仍然是完全的。有若干种方 
式来附加虚拟路段，我们尚不准备分析这样做的“最好”的方式。我们将首先讨论分 

布的方法和指定虚拟路段的方法，它并非严格地是最优的，尽管它有简便的长处而 
且似乎比所有其它同样简单的方法都要好些。 

算法 D (具有“水平”分布的多阶段合并排序）这个算法把初始路段疏散到磁带 
上，一次一个路段，直到初始路段的供给穷尽为止。然后它确定这些磁带如何被合 
并。假定有 T = P + 1>3台可利用的磁带机，同时使用 P 路合并。磁带 T 可以用 
来保存输入，因为它不接收任何初始的路段。维护如下一些 表项： 

‘]，我们正在力求的完全斐波那契分布。 

假定应出现在设备编号为 ） 的逻辑磁带开始处的虚拟路段个 
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▼ 



图68多阶段的合并排序 

数。 

TAPEOUgjST : 对应于逻辑磁带设备号 7 的物理磁带设备号（处理“逻辑磁 
带设备号”是方便的。对它分配物理磁带设备号是随算法的进行而变化的）。 

D 1 •[初始化]对于 1<;<了，置 A [ j ]— D [ j ] -1 和 TAPE [6]— j 。 置 A [ T]—D 

[了] — 0和 TAPE [ T ] — 丁。然后置 Z — l，j — 1。 

D 2 .[输人到磁带 j ] 写一个路段到编号为 j 的磁带上，并且 D [ j ] 减1。然后如 

果输人已穷尽，则重绕所有的磁带并转到步骤 D 5。 

D 3.[ j 增值]如果 D [ j ]< D[j +1]，则 j 增加1，并且返回到 D 2 .否则如果 D [ j ] 

= 0,则转到 D 4。 否则置 j — 1，并且返回到 D 2。 

D 4 •[升一级]置 / —Z + l ， a — A [ l ]， 然后对于』=1，2，"*，戶（在这个次序下） 

置 D[ j ]— <2 + A[j + 1] _ A [ j ]* A[j ] — a + A[ j + 1] (见 （1) 并注意 A[ P + 1 ] 

总是0。这时我们将有 D [ i ]> D [2]> m > D [: T ])。 现在置1并且返回 
到 D 2 。 

D 5 •[合并]如果 Z =0,则排序完成而且输出在 TAPE [1] 上。否则，把 TAPE [1] ， 

… ， TAPE[P] 的路段合并到 TAPE [: T] 上，直到 TAPE [ P ] 成为空的而且 D[P] 

= 0为止。对于每一个被合并的路段，合并过程应该如下操作 ：如果 对所有 
7，1< ; <尸，0[ 7 ]>0，则 D [: T ] 增加1且对于，每个 D [ j ] 减1;否则 
从每一个使得 D [ j ] = 0的 TAPE [ j ] 合并一个路段，而且对每个其它的 j ， 
D [ j ] 减 1( 于是虚拟路段被想像为在磁带的开始而不是在末尾）。 

D 6 •[降一级] 置 1一1 _ 1。 重绕 TAPE [ P ] 和 TAPE [ T ] (实际上 TAPER ] 的重 

绕在步骤 D 5 中，在输人了它的最后一组路段之后就可以开始）。然后置 

( TAPE [1]， TAPE [2] ，•" , TAPE [ T ])^( TAPE [ T ] , TAPE [ l ] ,… ， TAPE [ T - 1]) ， 
(0[1]，0[2]广‘/[了]) — (0[了]，0[1]，".，0[了-1])，并返回到步骤05。 
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此算法的步骤 D 3 中如此简洁地叙述的分布规 
则，是打算尽可能在每条磁带上设置相等个数的虚 
拟路段。图69所示为我们在一个6-磁带的排序中 
从级 4(33 个路段）进行到级 5(65 个路段）时分布的 
次序； 如果仅仅有，比如说，53个初始的路段，则所 
有编号为54和更高的路段都将被处理作虚拟的（这 
些路段实际上被写到这条磁带的末尾，但是最好把 
它们想像成写到开始处，因为已经假定虚拟路段都 
是在开始处）。 

我们现在已经讨论了上边列出的前3个问题， 
剩下要考虑的是数据“扫描”的次数。把6-磁带的例 


第5章排序 


子同表 （1) 进行比较，我们看到，当 S 


6 


时，处理的图 6 9 当从级 4 进行到级 5 时，路 


初始路段的总数是 a s t x + a 4 t 2 + a 3 i 3 十 a 2 t 4 + a x t s 段 3 4 到 65 被分布于各磁带上的次 
+ a 0 r 6 , 初始的分布扫描不计在内。习题4导出生序(见 (1) 的完全分布表）。阴影区 


成函数 


域表示当到达级 4 时已被分布好 

的前 33 个路段 


a ( z 






1 — z - z 2 - z 3 - z 4 — z 


t(z) 




S 




5 


z 



4 


z 




z 


十十 


⑺ 


2： 


1 — Z - Z - z 3 - z 4 - z 


由此得出， 
系数，加上 


般说来当 s 


时处理的初始路段数准确地等于在中的 


(对于初始的分布扫描) 


o 


这使得有可能如习题5 




7所示来计算多阶 


段合并的渐近行为，并得到表1中所示的结果。 


表1 


多阶段的合并排序的近似特性 


磁带 

阶段 

扫描 

扫描 / 阶段 

增长率 

3 

2.078 In S +0.672 

1.504 In S+ 0.992 

72% 

1.6180340 

4 

1.641 In S +0.364 

1.015 In S +0.965 

62% 

1•8392868 

5 

1.524 In S +0.078 

0.863 [n S + 0.921 

57% 

1■9275620 

6 

1.479 In S-0.185 

0.795 In S + 0‘864 

54% 

1■9659482 

7 

1.460 In S-0.424 

0.762 In S +0.797 

52% 

1■9835828 

8 

1.451 In S-0.642 

0.744 In S +0.723 

51% 

1.9919642 

9 

1447 In S-0.838 

0.734 In S + 0.646 

51% 

1.9960312 

10 

1.445 In S- 1.017 

0.728 In S + 0.568 

50% 

1 ‘ 9980295 

20 

1.443 In S-2.170 

0.721 In S-0.030 

50% 

1.9999981 



0 5 0 5 r5 
， ^ O 5 6 67 

<r: kj _ 

i i , I 1 . 

, 1 • . y » 〆 

- - ^-444556-7 


j 'l_-ji37i40i44i48i53i58i63i ^3 

^ - - - ...- -J. 6 9 3 7 2 V 2 2 

-3344556 T. 

■""I , ■ . .: 1-,.': :'二 f 

^-4582^161 rl 
x:>-“ ，， ^3334^556 7 





















0 


10 


20 


50 


100 


200 


500 1000 2000 


5000 


初始路段 S 


图70使用算法 D 的多阶段合并的效率 

图70所示为用算法 D 处理不完全数的情况时，作为 S 的一个函数，每个记录 
被合并的平均次数。注意，对于3条磁带，恰恰在完全分布之后就出现了相对低效 
率的“峰值”，但当有4条或更多的磁带时，这种现象就很少见了。使用8条或更多 
的磁带对6条或7条磁带的改进相当小。 


更仔细的考察 


在要求 A 次扫描的一个平衡的合并中，在排序过程中每个记录 


恰巧被处理 々次。 但是多阶段的过程却并非 这样; 某些记录可能得到比其它记录多 
许多次的处理，而且同时，如果把虚拟路段安排到经常被处理的位置，则我们就能贏 
得速度。 

因此让我们更仔细地研究多阶段的分布，不像在 （1) 中那样仅仅考察在每个磁 
带上的路段数，我们把每一路段同它的合并数，即在整个多阶段排序期间将被处理 
的次数，结合起来，就得到下列的表，以代替 （1): 


在表1中，“增长率”为 lim^^oo t n 4 i / 


，此即路段的个数在每一级增长的近似因 


子。 


扫描”表示每个记录被处理的平均次数，即 1/ S 乘上在分布和合并阶段处理的 


初始路段的总数。对于完全分布来说，当 S — 
况下所述的扫描和阶段数都正确到 o ( s ^)。 

14 


%时，存在 


个 


>0,使得在每种情 


J 3 


T 


12 


11 




10 


9 


8 


7 


6 


5 


4 
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% 
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排序 


级 

丁 1 

T2 

T3 

T4 

T5 

0 

0 

— 

— 

— 

— 

1 

1 

1 

1 

1 

1 

2 

21 

21 

21 

21 

2 

3 

3221 

3221 

3221 

322 

32 

4 

43323221 

43323221 

4332322 

433232 

4332 

5 

5443433243323221 

544343324332322 

54434332433232 

544343324332 

54434332 


n A rl B n C n D n E n 

n + 1 (A n + l)B yi (A n + l)C w (A W + 1)D W (A w + l)£ w A n + l (8) 


如果我们从 n 级分布开始， A „ 是、个值的串，表示 T 1 上每个路段的合 并数； 氏是 
对于 T 2 的对应的串，等等。记号 “（ A „ + 1) B / 意味着 “ A „ 中的所有值增加1，后边 
紧接以 B n \ 

图 71( a ) 所示为出现在末端的义 5 ，召 5 ,0 5 ,1) 5 ，£： 5 ,示出每个路段的合并数如何 

出现在磁 带上； 注意，例如，在每条磁带开始的路段将被处理5次，而在 T 1 末尾的路 
段将仅仅被处理1次。多阶段合并的这种区别对待的情况，使得把一个虚拟路段放 
置在磁带的开始比放在磁带的末尾要好得多。图 71( b ) 所示为在5级多阶段合并中 
路段分布的一个最佳次序，把每个新路段放置到具有最小合并次数的位置上。算法 
D (见图 69) 并不是十分好的，因为在所有“3”的位置被用完之前，它填充了某些“4” 
的位置。 



磁带的开头 


2 3 _ | 

4 5 6 

16 17 18 __ 

7 8 9 10 

19 20 21 22 

23 24 25 26 

42 43 44 45 ,— 

11 12 13 14 15 

27 28 29 30 31 

32 33 34 35 36 

46 47 48 49 50 

37 38 39 40 41 

51 52 53 54 55 

56 57 58 59 60 

6jJ [62j L63j L64J |65 

(b) 


图71对于6条磁带的第5级多阶段的分布的分析 

(a) 合 并数； （ b) 最优分布的次序。 
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递推关系 （8) 表明，氏，心，!\的每一个都是的初始子串。事实上，我们 
可以使用 （8) 来推导公式 


D 

C 

B 

A 


n 


n 


( A ”]) + 

(^^72 - 1 72 - 2 ) 

(n — I ；2 — 2 - 3 ) 

( — 1 3 — 4 ) 

( A n - iA n -2^ n - 3^n-4^n - 5 ) 


⑼ 



这推广了仅仅处理这些串的长度的公式 (3)。 进而,从定义 A 的规则可以看出，在每 
级的开头出现的实际上是相同的 结构； 我们有 


A 


n 


n 


~ Qn 


( 10 ) 


其中 a 是由法则 


Qn = Qn ~ l ( Qn -2 + D ( Q w -3 + 2)( Q „_ 4 + 3)( Q ,_ 5 + 4) 对于72 > 1 

Qo = 0， 

Q n = ^ (空串）对于 n <0 (11) 

定义的、个值的一个串。由于 Q w 以开始，我们可以考察无穷的串 Qoo ; 它的 

前〜个元素等于 Q „， 这个串 Qoo 实际上表征了在多阶段分布中所有的合并数。在 
6-磁带的情况下， 

Qoo =011212231223233412232334233434412 

232334233434452334344534454512232… （12) 

习题11包含了对于这个串的一种有趣的解释。 

设是串，令 


A n (x) 





m 

a 

n 


是相应的计算每个合并数出现次数的生成 函数； 而且类似地定义 B n (^), C n ( x) y 

D n ( x ) , E n ( x ) 0 例如， A 4 (: r ) = ： c 4 + : c 3 + ： r 3 + x 1 + x 3 + x 2 + X 2 + x = + 3 x 3 + 

3 x 2 + x 0 关系 （9) 告诉我们，对于，有 

E n (^ r ) = x ( A n _ y ( x )) 

D n ( x ) = x ( A n - X ( x ) + A „- 2 ( x )) 

C n (x) = x(A n -Y (.r) + A„ _ 2 ( 工） + A n -^(x )) (13) 

B n (x) = x(A n . l (x) + A„_ 2 ( ： r) + A„— 3 ( 工 ） + A n . A (x)) 

A n ( x ) = x { A n . x ( x ) + A ”— 2 (工） + A n - 2 ,( x ) + A ; j _ 4 ( x ) + A „_ 5 ( j ：)) 

其中 A 0 (： r ) = 1 ，而且对于 7 i = _ 1, _ 2, - 3, ~ 4 y A fJ ( x ) = 0 o 因此 


^ A n {x) z n 


_1_ 

1 一 x{z + 之 2 + z 3 + z 4 + z 5 ) 


考虑所有磁带上的路段，我们设 


x k (z + z 2 + z 3 + z 4 + z 5 ) k 

k >0 

(14) 
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T n ( 


x 


A n ( x ) + B 


x ) + C ? l ( x ) + D n { x ) + E n ( x ) n ^ 1 


(15) 


由式 （13) 我们立即有 


TA 


x 


5A n ^i (x) 4A 


-2 


X 



3 A 


-3 


X 



2 A „_ 4 ( x ) + A 


— 5 


X 


因此 




X 


(5 


2： 


+ 4 z 2 + 





+ 2 z 4 



z 




1 — x ( z + z 2 + Z 3 + 2 ： 



(16) 




式 （16) 的形式说明，容易计算出乃“）的 系数: 


10 


11 


12 



Z 


Z 

Z 

Z 

2 ： 

Z 

Z 

Z 


Z 

Z 

Z 

Z 


5 

4 

3 

2 

1 

0 

0 

0 

0 

0 

0 

0 

0 

0 

工 2 

0 

5 

9 

12 

14 

15 

10 

6 

• 

3 

1 

0 

0 

0 

0 

: T 3 

0 

0 

5 

14 

26 

40 

55 

60 

57 

48 

35 

20 

10 

4 

x 4 

0 

0 

0 

5 

19 

45 

85 

140 

195 

238 

260 

255 

220 

170 

X 5 

0 

0 

0 

0 

5 

24 

69 

154 

294 

484 

703 

918 

1088 

1168 


(17) 

这个表的列给出了 T „ U ); 例如'丁 4 U )=2 ：r + 12： c 2 + 14： c 3 + 5： t ： 4 。 在第一行之后, 

这个表中的每个项目都是位于前边一行中对应项目左边的5个项目之和。 

在一个“完全的”第72级分布中，路段的数目是丁„(1)，而且当这些路段被合并 

时处理的总数是微商： T ；；( l )， 现在 


^T ： (x)z n 



Z 



4 


Z 



3 z ^ + 2 z 4 + 






(1 - 


x 


(z -\- 


z 



z 



z 



z 


z 


)) 


(18) 


在式 （16) 和式 （18) 中置 


X 




1，就可得出一个同我们前面的结论相 


致的结果，这个 


结论就是 :对于 一个完全的第 n 级分布，合并的处理是 aUhU ) 中/的 系数； 参 
见式(7)。 

我们可以使用函数： T „(1) 来确定，当以最优方式加上虚拟路段时所涉及的工作 

量有多少。令是在第 72 级分布中最小的 772 个合并数之和。通过考察式 

(17) 的诸列，很容易计算岀这些值来，而且我们发现 2„( m ) 由下表 给出： 


m 




10 11 12 13 14 15 16 17 18 19 20 21 


n 




10 12 14 oo oo 


oo 


n = 3 


n = 4 




11 13 15 17 19 21 24 27 30 33 36 co oo oo 


10 12 14 16 18 20 22 24 26 29 32 35 38 41 44 47 


11 13 15 17 19 21 23 25 27 29 32 35 38 41 44 47 


(19) 


72 = 6 


10 12 14 16 18 20 22 24 26 28 30 33 36 39 42 45 48 


72 = 7 


10 12 14 16 18 20 23 26 29 32 35 38 41 44 47 50 53 


例如，如果我们希望用一个第 3 级分布来对 17 个路段排序，则处理的总数量为2 
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(17) = 36; 但是如果我们使用第4级或第5级分布，以及最优地放置虚拟路段的位 
置，则在合并阶段的处理总数量就只有: S 4 (17) = 2 5 (17) = 35。使用第4级是更好 

的，尽管17对应于一个“完全的”第3级分布！其实，当 S 变得很大时，已经证实级 
的最优个数要比在算法 D 中所使用的多得多。 

习题14表明有一个非减的数序列 M w ，使得级 n 对于是“最优” 

的，但对于则不然。在 6 -磁带的情况下，我们刚刚计算的 2 „( 772 ) 的表说 

明 

M 0 = 0, Mi = 2, M2 = 6, M 3 = 10, M 4 = 14 

上边的讨论仅仅处理了 6-磁带的情况，但是显然，同样的思想可应用于对于任 
何： T >3 的： r 条磁带的多阶段的 合并； 在所有适当的位置中，我们都简单地以 p = 
: T -1 代替5。表2为对于各 种了值 所得到的序列 M „。 表3和图72指出了在做成 

虚拟路段的一个最优分布之后，被处理的初始路段总数（在表3的下部出现的公式 
应当有保留地采用，因为它们是在变程 1< S <5000( 或者对于 T = 3 为 
10000 ) 上“最小平方符合 ”的； 这导致了有些反常的特性，因为给定的 S 的范围并非 
对于所有的 T 都是同样有利的。当 S — 〜时，在一个最优的多阶段分布之后处理的 
初始路段数渐近于 S l 0 g P S ， 但是收敛于此渐近极限值的过程是极端缓慢的）。 


表2对应于最优级的路段数 



2 

3 

4 

5 

6 

7 

8 

9 

10 

凰 

m 2 

3 

4 

6 

8 

10 

12 

14 

16 

18 

m 3 

4 

6 

10 

14 

14 

17 

20 

23 

26 

m 4 

5 

9 

18 

23 

29 

20 

24 

28 

32 

m 5 

6 

14 

32 

35 

43 

53 

27 

32 

37 

m 6 

7 

22 

55 

76 

61 

73 

88 

35 

41 

m 7 

8 

35 

96 

109 

154 

98 

115 

136 

44 

m 8 

9 

56 

173 

244 

216 

283 

148 

171 

199 

m 9 

10 

90 

280 

359 

269 

386 

168 

213 

243 

M 10 

11 

145 

535 

456 

779 

481 

640 

240 

295 

M n 

12 

234 

820 

1197 

1034 

555 

792 

1002 

330 

m 12 

13 

378 

1635 

1563 

1249 

1996 

922 

1228 

1499 

m 13 

14 

611 

2401 

4034 

3910 

2486 

1017 

1432 

1818 

M 14 

15 

988 

4959 

5379 

4970 

2901 

4397 

1598 

2116 

m 15 

16 

1598 

7029 

6456 

5841 

10578 

5251 

1713 

2374 

M 16 

17 

2574 

14953 

18561 

19409 

13097 

5979 

8683 

2576 

m 17 

18 

3955 

20583 

22876 

23918 

15336 

6499 

10069 

2709 

m 18 

19 

6528 

44899 

64189 

27557 

17029 

30164 

11259 

15787 

m 19 
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T=10 



11 


14 

13 

12 





表 4 表明算法 D 的分布方法堪与表 3 的最优分布结果相匹敌。显然，当 S 和 T 
变得很大时，算法 D 并不是非常接近最 优的； 但是还不清楚在这两种情况下如何能 
比算法 D 做得更好而又不致搞得过分复杂，特别是，如果我们事先并不知道 S 的情 


10 

36 

24 

19 

17 

20 

90 

60 

49 

44 

50 

294 

194 

158 

135 

100 

702 

454 

362 

325 

500 

4641 

3041 

2430 

2163 

1000 

10371 

6680 

5430 

4672 

5000 

63578 

41286 

32905 

28620 

S 

((1.51 

(-.11 

0.951 

+ .14 

0.761 

+ . 16 

0.656 

+ .19 


15 14 13 12 

38 36 34 33 

128 121 113 104 

285 271 263 254 

1904 1816 1734 1632 

4347 3872 3739 3632 

26426 23880 23114 22073 

0.589 0.548 0.539 0.488) x S In S 

+ .21 + .20 + .02 + .18) x S 


=10 


排序 


5 


o 

IX 


9 


8 


7 


6 


5 


4 


ss 
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况时就更是如此 


幸而我们很少碰上很大的 S (见 5.4.6 小节），所以算法 D 实际上 


并不是太 坏的； 事实上，它相当好。 

多阶段排序首先是由 W . C . Carter 从数学上加以分析的 [Proc . IFIP Congress 

(1962),62 〜66]。关于最优虚拟路段安排的以上许多结果，原来是由 B . Sackman 和 

T . Singer 给出的 [“A vector model for merge sort analysis” ， an unpublished paper pre ¬ 
sented at the ACM Sort Symposium(November 1962) ,21 pages]。Sackman 后来提出 


sented at the ACM Sort Symposium(November 1962) ,21 pages]。Sackman 后来提出 

在算法 D 中使用的分布的水平方法。 D . Donald Shell[CACM 14(1971) ,713〜719; 
15(1972),28] 独立地发展了这个理论，指出了关系（10)，并对于若干不同的分布算 


法进行了 详细的研究 。 Derek A . Zave [ S/COMP 6(1977),1 




39] 已经做出了进 


步 


的有教益的发展和 改进； 习题15到17讨论了 Zave 的某些结果。生成函数 （16) 首 


先是由 Burge 研究的 [ Proc . IFIP Congress ( 1971 ) , 1,454 




459] 


表4 


在标准多阶段合并时处理的初始路段 



10 

36 

24 

19 

17 

15 

14 

13 

12 

20 

90 

62 

49 

44 

41 

37 

34 

33 

50 

294 

194 

167 

143 

134 

131 

120 

114 

100 

714 

459 

393 

339 

319 

312 

292 

277 

500 

4708 

3114 

2599 

2416 

2191 

2100 

2047 

2025 

1000 

10730 

6920 

5774 

5370 

4913 

4716 

4597 

4552 

5000 

64740 

43210 

36497 

32781 

31442 

29533 

28817 

28080 


重绕时间为何? 


迄今，我们都以“被处理的初始路段”作为比较磁带合并策略 


的有效性的惟一测度。但本节开始的例子中在阶段2到6的每一阶段之后，计算机 
都必须等候两条磁带 重绕； 在下一阶段可以进行之前，先前的输出磁带和新的当前 


输出磁带两者都必须重新定位到开头处。这会引起 


个相当大的迟延，因为先前的 


输岀磁带一般都包含了相当百分比的正被排序的记录（见表1的“扫描/阶段”列）。 


在所有这些重绕操作期间，让计算机闲得无聊是令人遗憾的，但如果我们使用 
不同的合并形式,那就可以用其它磁带来完成有用的工作。 


种 


简单地修改多阶段的过程，就能解决这个问题，尽管它至少要用5条磁带[见 


Y . Cesari , Thesis , U . of Paris ( 1968), 25 




27,其中把这个思想归功于 J . Caron ]。 在 


Caron 的方案里，在每个阶段，都把 T -3 条磁带上的路段合并到另一条磁带上，而 
剩下的两条磁带重绕。 

例如，考虑6条磁带和49个初始路段的情况。在下表中， R 表示在这个阶段进 
行重绕，而且假定 T 5 包含原来的 输入： 


阶段 


T1 


T2 


T3 


T4 


T5 


T6 


写的时间 


重绕时间 


11 


17 


13 


I 8 


(R) 


49 


17 
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2 (R) I 9 I 5 

3 I 6 I 4 - 


4 I 2 — R 

5 — R 7 2 


6 R II 2 R 

7 15 1 R 7 1 

8 R 11 1 7° 


9 15 1 II 1 — 

10 (15°) — R 



R 

3 8 

R 

3 5 

R 

5 4 

R 

3 4 

R 

3 3 

3 2 

5 2 

3 1 


5 1 


R 


R 

23 1 

R 

33° 

R 

49 1 

( R ) 

(23°) 


8X 3 = 24 49- 17 = 32 

5x3=15 max(8,24) 


4X5 = 

20 

max( 13, 15) 

2X7 二 

14 

max(17,20) 

2X 11: 

--22 

max(ll,14) 

1X15 = 

=15 

max(22,24) 

1X23 = 23 

max(15 f 15) 

0x33 

= 0 

max(20,23) 

1 X49 = 

= 49 

14 


这里所有的重绕时间实际上都是重叠的，只有阶段 9( 这是一个“虚拟阶段”，它为最 
后的合并做准备）以及在初始分布阶段之后（当所有磁带都被重绕时）除外。如果^ 
是合并一个初始路段中全体记录的时间，且如果 r 是重绕一个初始路段的时间，则 
这个过程花费大约182^ + 40 r 加上初始分布和最后重绕花费的时间。对于使用算 

法 D 的标准多阶段法，对应数字是 14 (h + 104 r ， 当 r = jt 时它要差一些，而当 r = 


jt 时则稍微好些。 

我们对于标准多阶段法已说过的每件事情，都可适用于 Caron 的多阶 段法； 例 
如，序列现在满足的不是 （3) 而是递推式 

= a n . 2 + a n - 3 + a n - 4 ( 20 ) 

读者将发现，像我们分析标准的多阶段法那样来分析这个方法是有 &益的 ，因 
为它将增进对于这两种方法的理解（比如，见习题19和20)。 

表5给岀了关于 Caron 多阶段法的一些事实，它们类似于表1中的通常多阶段法 
的相应事实。注意， Caron 的方法就处理的路段数以及重绕的时间而言，实际上比对8 
条或更多磁带的多阶段法优越，尽管它进行了 ： T -3 路合并而不是 T - i 路合并！ 


表 5 Caron 多阶段合并排序的近似行为 


磁带 

阶 段 

扫 描 

扫描 / 阶段 

增长率 

5 

3.556 In S + 0.158 

1.463 In S +1.016 

41% 

1.3247180 

6 

2.616 In S-0.166 

0.951 In S + 1.014 

36% 

1.4655712 

7 

2.337 In S-0.472 

0.781 In S +1.001 

33% 

1.5341577 

8 

2.216 In S-0.762 

0.699 In S + 0.980 

32% 

1.5701473 

9 

2.156 In S-1.034 

0.654 In S + 0.954 

30% 

1■5900054 

10 

2.124 In S™ 1.290 

0.626 In S +0.922 

29% 

1.6013473 

20 

2.078 In S-3.093 

0.575 In S +0.524 

28% 

1.6179086 


一个意阶的合并并不必然意味着一个有效的排序，在我们认识到这一点之前， 
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上述事实似乎是一种怪事。作为一个极端的例子，考虑把一个路段放到 T 1 上而且 
把 / Z 个路段放到 T 2， T 3， T 4， T 5 上； 如果我们交替地进行五路合并到 T 6 和 T 1 上， 
直到 T 2, T 3， T 4， T 5 变空为止，则处理时间是 (2 n 2 + 3 n ) 个初始路段长度，实际上和 
S 2 而不是和 S logS 成比例，尽管自始至终地进行了五路合并。 


分带 重绕时间的有效重叠是在许多应用中所产生的一个问题，而不只限于排 
序中，而且有一个通常可资利用的一般方法。考虑一个迭代过程，它以如下方式使 
用两条 磁带： 



T 1 

T 2 

阶段1 

输出1 



重绕 


阶段2 

输入1 

输出2 


重绕 

重绕 

阶段3 

输出3 

输人2 


重绕 

重绕 

阶段4 

输人3 

输出4 


重绕 

重绕 


等等，其中“输出 f 意味着写出第々个输出文件，而“输入々”就意味着读入它。当 
使用3条磁带时，如同 C . Weisert 所建议的 [ C 4 CM 5 (1962) , 102] 那样，可以免去重 

绕的 时间： 



T 1 

T 2 

阶段1 

输出 1.1 
输出 1.2 



重绕 

输出 1.3 

阶段2 

输入 1.1 

输出 2.1 


输人 1.2 

重绕 


重绕 

输入 1.3 

阶段3 

输出 3.1 

输人 2.1 


输出 3.2 

重绕 


重绕 

输出 3.3 

阶段4 

输人 3.1 

输出 4.1 


输人 3.2 

重绕 


重绕 

输人 3.3 


T 3 


输出 2.2 
输出 2.3 

重绕 
输入 2.2 
输入 2.3 
重绕 

输出 4.2 
输出 4.3 


等等，这里“输岀意味着，写岀第 A 个输岀文件的第 J 个1/3,而“输人就意 
味着读入它。实际上，如果重绕速度至少是读写速度的两倍，则所有的重绕时间都 
将被消去。这样的一个过程，其中每个阶段的输出都被分到一些磁带上，称为“分 

O 

R . L . McAllester[CACM 7 (1964) ,158〜 159] 已经证明，分带是一个把多阶段合 
并中的重绕时间加以重叠的有效方法。他的方法可以用于4条或更多的磁带，而且 
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它进行： T -2 路合并。 

再次假定有6条磁带，让我们来设计一个合并型式，它的操作如下 ：分开 在每级 
上的输岀，其中“1”，“0”，和 “ R ” 分别表示输入、输出和重绕。 


级 

T1 

T2 

T3 

T4 

T5 

T6 

输岀路段的个数 

7 

I 

I 

I 

I 

R 

0 

以7 


I 

I 

I 

I 

O 

R 

^7 

6 

I 

I 

I 

R 

O 

I 

«6 


I 

I 

I 

0 

R 

I 

^6 

5 

I 

I 

R 

O 

I 

I 

u 5 


I 

I 

O 

R 

I 

I 

^5 

4 

I 

R 

O 

I 

I 

I 

m 4 


I 

O 

R 

I 

I 

I 

汐4 

3 

R 

O 

I 

I 

I 

I 

以3 


O 

R 

I 

I 

I 

I 

^3 

2 

0 

I 

I 

I 

I 

R 

u 2 


R 

I 

I 

I 

I 

O 

^2 

1 

I 

I 

I 

I 

R 

O 



I 

I 

I 

I 

O 

R 


0 

I 

I 

I 

R 

O 

I 

«o (21) 


I 

I 

I 

O 

R 

I 

^0 


为了以 T 4 上有一个路段以及所有其它的磁带都变空告终，我们需要有 

幻0二1 
+ *^1 = 0 

U\ + V2 ~ Uq + Vq 

U 2 + ^3 = Ui ^ Vi + Uq + Vq 

W 3 + V 4 = U 2 + V 2 + Ui + Vi + Uq + Vq 

U 4 + Vs = M 3 + Z；3 + W 2 + ^2 + + ^1 + + ^0 

w 5 + 幻 6 = w 4 + 以4 + 以 3 + 幻3 + w 2 + 以2 + W 1 + + w 0 + 幻0 

等等; 一 般说来，要求对于所有的 n >0, 

u n + V n+ i = U n -x + V„-i + U n -2 + 幻 《-2 + W„-3 + 幻 77-3 + u n-4 + ^«-4 (22) 

这里我们认为，对所有 ><0 U ^ V^Oo 

这些方程没有惟一 的解; 其实，如果令所有的〃都为0,则我们就浪费了一条磁 
带而得到了通常的多阶段合并！但是如果我们选择 + 1 ，则重绕时间将令人 

满意地重叠。 

Me Allester 建议取 


使得序列 
• 266 • 


U n 二 + V n - 2 + V n - 3 + V n _ 4 

幻 72 + 1 — W/2-1 + 2 + M/2-3 + -4 


外部排序 




1 19 l 3l° 19 1 13 l 7° R 31 1 52° 0x52 = 0 、 

I9 l 31° 19 1 13 1 — 52° R 0 x 52 二 0 ^ max(36,31 ， 23) 

0 1 炉 31 0 19 1 13 1 R 52°82° 31 ! 52° 0x82 = 0 」 

(31°) (19°) — 82 1 (R) (52°) 1 x82 = 82 0 

当输入磁带 T 5 被重绕时 (82 个单位），在第2级的上半阶段 (27 个单位），以及在第 
1级和第0级的最后的“虚拟合并”阶段 (36 个单位），在3处出现非重叠的重绕。所 
以我们可以估算这个时间是 273( + 145 r ; 算法 D 相应的量是268纟+ 208 r ，几乎总 

要低些。 

习题23证明，在每个阶段，路段的输岀长度逐次为 

4,4,7,13,19,31,52，82,133,… (24) 


这是一个满足规则 
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i n ~ ^n-2 + 2^„_3 + 艺 ”_4 (25) 

的序列，如果认为当 n <0 时 ~ = 1 的话。通过像我们在等式 （8) 中对于标准的多阶 
段法所做的那样，来考察合并数的串，我们也可以分析虚拟路段的最优 设置： 


级 

T1 

T2 

T3 

T4 

T6 

最后输出于 

1 

1 

1 

1 

1 


T5 

2 

1 

1 

1 


i 

T4 

3 

21 

21 

2 

2 

i 

T3 

4 

2221 

222 

222 

22 

2 

T2 

5 

23222 

23222 

2322 

23 

222 

T1 

6 

333323222 

33332322 

333323 

3333 

2322 

T6 

n 


B n 

c w 

D n 

E，, 

TU) 

n + l 

(AX + 1)B m 

(AX + DC,, 

(A ： E n + l)D r 

A ： E n + 1 

A ： 

TU -1) 


(26) 

其中 = ，且 A ；； 由 A „ 的最后〜个合并数组成。上述从 n 级进行到 n 十1级 

的规则对于满足 (22) 的任何方案都是正确的。当我们用 （23) 来定义 m 和 I 时，可以 
下列类似于 (9) 的颇简单的方式来表达串 A 7 J ,-*, E w ： 

A „ = ( m — 3 W ”_ 4 ) + 1 

b „ = dn) +1 

c„ 二 （ H— 2 ) + 1 


D n = (W n _ { ) + 1 

E n = (W n _ 2 W n _ 3 ) + 1 

其中 = ( W „_ 3 W ,„ 4 W 7 I _ 2 W n _ 3 ) + 1 对于 w >0 

,0 = 0和你„ =( 对于 n <0 

从这些关系，容易对 6 条磁带的情况进行详细的分析。 

—般说来，当有 T >5 条磁带时，我们令 P = T -2, 而且通过规则 


(27) 

(28) 


V 


n + l 


^71 — 1 



心 -1 +… 



U 


n 



V 


n 


U 


n 


U n -r-l + % - r- 1 + …+ ^n-P + V n~ 


P 


对于 72 > 0 


(29) 


定义序列 〈 w n 〉 ，〈％〉 , 其中 r = LP /2 J ； v 0 = l 且对 72 <0,〜 


V 


n 


0 


o 


所以如果 


u 


n 



%，则我们有 


zv 



zv 


n 


2 



+ 2 vu 


n - r- 



加 n- 
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+ 对于打 > 0 

( 30 ) 





5.4 外部排序 


W 0=1; 且当72<0时= 0。72 +1级的磁带上的初始分布是：置叫+ +… 

+ + 6 个路段到磁带 A 上；1 < A < P ， 以及置 ■^^ +…十 Zi ^- r 个路段到磁带 

丁上； 磁带： T -1 用于输入。然后当磁带 T -1 正被重绕时，、个路段被合并到 : r 
上，在了正重绕时，％个路段被合并到了 -1 上；当了 -2 正重绕时，〜^个路段合 
并到 T — 1 上，等等。 

当5不太小时，表6示出了这一过程的近似特性。“扫描/阶段”列近似地指出 
在一个阶段的每一半期间，整个文件中有多少正在被重绕，以及在每个完全的阶段， 
此文件近似地有多少正在被写出。 对于6条或更多的磁带，分带方法是比标准多阶 
段法要好的，而且对于5条磁带或许也是这样，至少对于很大的 S 是这样。 


表6使用分磁带的多阶段合并的近似行为 


磁带 

阶段 

扫描 

扫描 / 阶段 

增长率 

4 

2.855 In S + 0.000 

1.443 in S + 1.000 

50% 

1.4142136 

5 

2.078 In S + 0.232 

0.929 In S + 1.022 

45% 

1.6180340 

6 

2.078 In S-0.170 

0.752 In S + 1.024 

36% 

1.6180340 

7 

1.958 In S-0.408 

0.670 In S + 1.007 

34% 

1.6663019 

8 

2.008 In S-0.762 

0.624 In S +0.994 

31% 

1.6454116 

9 

1.972 In S-0.987 

0.595 In S +0.967 

30% 

1■6604077 

p 

10 

2.013 In S-1.300 

0.580 In S +0.941 

29% 

1.6433803 

20 

2.069 In S-3.164 

0.566 In S + 0 .536 

27% 

1.6214947 


当 了 = 4时，上述过程实际上就等价于平衡的两路合并，没有重叠重绕的时间， 
因为对所有的 W,t^2rj + l 都将成为 0 。 所以略加修改，置 = = v l = 0, Uq — 

0, 幻 0 = 1 ， 和对于 n ^2 y v n + i = — i 十 - i ，_ 2 + - 2 ， 即得到 了 = 4 的表 6 

的诸项。这导出了一个非常有趣的方案（见习题25和26)。 

习题 


1. [】6]图69所示为路段34到65通过算法 D 被分布到5条磁带上的 次序； 问路段1到33 
以什么次序分布？ 

► 2. [21] 真或假:在算法 D 中的两个合并阶段之后（即在我们第二次达到步骤 D 6 时），所有的 
虚拟路段都已经消失。 

► 3. [22] 证明在步骤 D 4 的结果处，条件 D [1]> D [2]>〜> D [ T ] 总是满足的。说明为什么 
在下述意义之下，这个条件是重要的，即 ：否 则步骤 D 2 和 D 3 就不能有效工作。 

4. [ M 20 ] 导出生成函数（7)。 
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5. [ HM 26] ( E . P . MilesJr . ,1960) 对于所有 p >2, 证明多项式 4( z ) = 〆 - 之广 1 - z 

有 p 个不同的根，它们当中恰有一个绝对值大于1[提示 ：考虑 多项式 ^ +1 -2 〆 + 1]。 

6. [ HM 24] 本题的目的是考虑如何来编制表1、5和6。假定我们有一个合并型式，其性质以 

下列方式由多项式/>(幻和 W 幻表征：（0出现在要求 n 个合并阶段的一个“完全分布”中的初始 
路段个数是 （ U ) 在这 n 个合并阶段里处理的初始路段个数是 U ”]/> U )/(7 U ) 2 。 
㈤ 有 gU - 1 ) 的一个“最大”的根 a ，使得 q ( r 1 )=0 

蕴涵着0 二 a 或 |0|<| a |。 

证明存在一个数 e >0, 使得如果 S 是在一个要求 72 个合并阶段的完全分布中的路段数，而且 
如果在这些阶段中处理了 0个初始路段，则我们有 n = a\n S + b + 0( S- ( ) 7 p = c\n S + d + 

o ( s _< )， 其中 



d = 


(b + \)g - p, (a - l )l p(a、) + q{ a~ l )l q' (a~ l ) 

- q(a~ l ) 


7. [ HM 22] 设&是习题 5 中多项式 / P U ) 的最大的根，问当 oo 时，％的渐近特性是什 
么？ 

8. [ M 20] ( E . Netto ，1901) 设 N ( m p ) 是把 m 表达成整数11，2,> 1的一个有序和的方式 

数。例如，当/> = 3和 m = 5时，有13种方式，即1 + 1十1 + 1 + 1 = 1十1十1 + 2=1 + 1 + 2 + 1 = 1 
+1+3=1+2+1+1=1+2+2=1+3+1=2+1+1十1=2+1+2=2+2+1=2+3=3+1+1= 

3 + 2。证明 N ( m p ) 是一个广义斐波那契数。 

9. [ M 20] 设 K ( m p ) 是 w 个0和1的这样的序列的个数，即其中没有个相邻的1出现。例 
如，当 p = 3 和 m = 5 时，有24种方式： 00000,00001,00010,00011,00100,00101,00110,01000, 
01001，…，11011。证明 K ( f 是一个广义斐波那契数。 

10. [ M 27] (广 义斐波那契数系统） 证明每一个非负整数 n 都可以惟一地表示为不同的阶 
斐波那契数之和，而且这个表示不使用连续的 p 个斐波那契数。 

11. [ M 24] 证明 （12) 中的串的第 rz 个元素，等于用第5阶斐波那契数表示 rz - l 时其中 

不同斐波那契数的个数（参见习题10)。 

12. [ M 18 ] 试求矩阵 

0 1 0 0 0' 

0 0 10 0 
0 0 0 1 0 

0 0 0 0 1 

a 1 1 1 l 

的乘方与 （1) 中的完全斐波那契分布之间的联系。 

► 13. [22] 证明完全斐波那契分布的下列相当奇特的性 质：当 最后的输出在丁号磁带上时， 
则在每个其它磁带上的路段数都是 奇数； 当最后的输出在不同于： r 的某个磁带上时，则在该磁带 
上的路段数将是奇的，而在其它磁带上的将 是偶的 [参见（1)]。 

14. [ M 35] 设丁„(2) = 2：&0了《 〆 ，其中丁，,（工）是在 （16) 中定义的多项式。 

a ) 证明对于每个 I 都有一个数«⑴，使得 T lk < T 2 k <-< T nU ) k > T (n(k) + 1)ik >- 0 

b ) 若丁以,< 了‘且，< «，证明对所有的々> 〆 ， T nk < T n k 。 
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c ) 证明有一个非减的序列 〈 M „〉， 使得当 + 二 min ;>1 E ,( S )， 但当 

+ 冰义 （ S ) 2)( S ) [参见 （19) ]。 

15. [ M 43 ] 证明或否定，1：，,-1(爪）<2：“777)意味着2„(7^)<1： ;1 十 1 (奶）<2„ +2 (/70<〜' 

[这样一个结果将大大地简化表2的计算]。 

16. [ M 43] 确定具有最优虚拟路段分布的多阶段合并的渐近特性。 

17. [32] 证明或否 定：通 过把一个路段（在一条适当的磁带上）加到 S 个初始路段的分布上， 
来形成 S + 1 个初始路段的分布，这个方法可用来散布一个最优多阶段分布的路段。 

18. [30] 如果我们坚持初始路段至多被放置在了-1条磁带上，则在处理的初始路段个数 
极小的意义下，最优多阶段分布是否产生最好的合并型式（忽略重绕时间）？ 

19. [21] 试对6条磁带上的 Caron 多阶段排序，构造类似于 （1) 的一张表。 

20. [ M 24] 对6条磁带上的 Camn 多阶段排序，什么生成函数对应于 (7) 和 （16)? 类似于 （9) 
和 （27) 的什么关系定义合并数的串？ 

21. [ J 1] 在 （26) 中的第7级上，将出现什么？ 

22. [ M 2]] 序列 （24) 的每一项近似地等于前面两项之和。这种现象对于序列中剩下的数是 
否成立？叙述并证明关于 Hr ~_ 2 的一个定理。 

► 23. [29] 如果把 （23) 变成 v „ 十 1 = u n - x + _ 2 , u n - v n - 2 ^ u „^ 3 + v n-3 + w „_ 4 + 

%- 4 ,则对(25)， （27) 和 （28) 应做什么改变？ 

24. [ HM 41 ] 当把 ％ + 1 定义为 i + r ；，, - 1 + … + ^^„_ P +^；„_ p 的前(7项之和时，试对各种 P 

=丁-2及0< g < 2 P 计算分 带的多阶段过程的渐近特性（正文中仅仅处理 (7 = 2 LP /2」 的 情况； 
参见习题 23) o 

25. [19] 说明 ： 本小节末尾提到的在4条磁带上的分带多阶段合并将如何对32个初始路段 
排序（给出逐个阶段的分析，像正文中82个路段的6条磁带的例子那样）。 

26. [ M 21 ] 分析当 S = 2” 和当 1 5 = 2"+2〃 1 时，在4条磁带上的分带多阶段合并的特性（见 

习题25)。 

27. [23] 在一个完全分布中一旦初始路段已经分布到一些磁带上，则多阶段策略只不过是 
“合并直到 空”： 我们从所有非空输入磁带合并路段，直到它们之一变成空的 为止； 然后使用该磁带 
作为下一输出磁带，并且让以前的输出磁带作为输入之一。 

是否不论初始路段如何分布，只要我们至少把它们分布到两条磁带上，则这个合并直到空的 
策略就总能完成（当然，一条磁带将保持为空，以便它能作为第一条输出磁带）？ 

28. [ M 26] 上边的习题定义了一族相当广泛的合并型式，说明在下列意义下多阶段法是其 
中最 好的： 如果有6条磁带，而且如果我们考虑所有这样的初始分布类，在这个类中 
合并直到空的策略要求最多《个阶段来进行排序，则 a + b + c + d + e < 其中~是对于多阶 

段排序 （1) 的相应的值。 

29. [ M 47] 习题28说明，在极少阶段的意义下，多阶段分布是在所有“合并直到成为空”的 
型式中最优的，但是在极少扫描的意义下它也是最优的吗？ 

设 a 和6互质，而且假定 a + 6是斐波那契 数匕。 证明或否定下列的 R . M . Karp 的猜 想：在 

以分布 （ a , 6) 开始的合并直到空型式期间处理的初始路段数，大于或等于 （（n -5) F „ + 1 + (2 n + 
2) FJ /5( 当时，达到此数）。 

30. [42] 对于分带多阶段合并，试编制类似表2的一张表。 

31. [ M 22] ( R . Kemp )， 令 K rf ( rz ) 是这样的 rz 节点有序树的个数，即其中每个叶到根的距离 
* do 例如， K 3 (8)=7, 因为有下列 的树： 
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证明 i ^ U ) 是一个广义的斐波那契数，并求这样的树和在习题8中所考虑的有序分划之间的一 
一 对应。 


"5.4.3 级联合并 


另一个称为“级联合并”的基本型式，实际上在多阶段法之前就被发现了 [ B . K . 
Betz 和 W . C . Carter ， A CM National Conf . 14( 1959 ) ， Paper 14]。 沿用 5.4.2 小节所 

给出的记号，下表给出在 6 条磁带和190个初始路段的情况下使用该法的图示。 



T 1 

T 2 

扫描1 

|55 

^50 

扫描2 


* 

扫描3 

15 5 

14 4 

扫描4 


* 15 

扫描5 

190 1 



T 3 T 4 T 5 

丄41 -^29 丄15 

2 9 3 12 4 14 

12 3 9 2 * 5 

29 1 41 1 50 1 


T 6 处理的初始路段 

190 

5 15 190 

190 

55 1 190 

一 190 


一个级联合并像多阶段法一样，以磁带上路段的一个“完全的分布”开始，尽管完全 
分布的规则有些不同于 5.4.2 小节中的那些。表中的每一行表示对所有数据的一 
次完全的扫描。例如，第二遍扫描是通过对1丁1，丁2，丁3，丁4，丁5|进行一次五路合并 
到 T 6, 直到 T 5 成为空为止（这把相对长度为5的15个路段放置到 T 6 上），然后对 
iTl ， T 2， T 3， T 4 l 进行一次四路合并到 T 5, 然后进行三路合并到 T 4, 然后进行两路 
合并到 T 3, 最后从 T 1 进行一路合并（一个拷贝操作）到 T 2。 第三遍扫描与此类似， 
首先进行一次五路合并直到1条磁带变空为止，然后进行一次四路合并，等等[也 
许，本书此节应编号为 5.4.3.2.1, 而不是5.4.3]。 

显然拷贝操作是不必要的，故可以省略它们。然而，实际上，在6条磁带的情况 
下，这个拷贝仅仅花费总时间的很小的一部分。在上面的表中以星号标岀的项目， 
就是简单地被拷贝的 那些； 处理的950个路段中仅有25个是这种类型的。大多数 
时间都花费在五路合并和四路合并上。 

若与多阶段法进行比较，则第一个印象可能觉得级联型式是一种相当拙劣的选 
择，因为标准多阶段法始终使用： T -1 路合并，而级联则使用： T -1 路，丁 -2 路 ， T 
-3路,等等。但事实上，在6条或更多的磁带上，它渐近地比多阶段法更好！如同 
我们已经在 5.4.2 小节中发现的，一个高阶的合并并不保证高效性。通过同 5.4.2 
小节中类似的表的类比，表1示出了级联合并的性能特征。 
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级联合并排序的近似特性 


磁带 

扫描（有拷贝） 

扫描（没有拷贝） 

增长率 

3 

2.078 tn S +0.672 

1.504 [n S +0.992 

1.6180340 

4 

1.235 In S + 0.754 

1.102 In S + 0.820 

2.2469796 

5 

0.946 In S +0.796 

0.897 In S+ 0.800 

2.8793852 

6 

0.796 In S +0.821 

0.773 In S + 0‘808 

3.5133371 

7 

0.703 In S +0.839 

0*691 tn S + 0.822 

4.1481149 

8 

0.639 In S + 0.852 

0.632 In S + 0.834 

4.7833861 

9 

0.592 In S + 0.861 

0.587 In S +0.845 

5.4189757 

10 

0.555 In S +0.869 

0.552 In S+ 0.854 

6.0547828 

20 

0.397 In S +0.905 

0.397 In S + 0.901 

12.4174426 


通过由最后的状态 （1,0, … 
分布”。对于6条磁带，它们是 

， o ) 向后推演，容易导出对于一个级联合并的 

级 

T 1 

T 2 

T 3 

T 4 

T 5 

0 

1 

0 

0 

0 

0 

1 

1 

1 

1 

1 

1 

2 

5 

4 

3 

2 

1 

3 

15 

14 

12 

9 

5 

4 

55 

50 

41 

29 

15 

5 

• • « I 

190 

175 

146 

105 

55 

n 

dn 


c n 

d n 


n + 

1 + b n + c n + d n + e n 

a n + t>n + + d n 

+ + C n 

+ b n 



完全 


( 1 ) 


注意到这样一点是有趣的，即这些数的相对大小也出现在 


个正 2 T - 1边多 


边形的对角线之中。例如，图73的11边形中的5条对角线有非常接近于190,175, 
146,105和55的相对长度！我们将在这一小节的稍后部分来证明这个值得注意的 
事实，而且我们也将看到，花费于（丁 -1) 路合并，（丁-2)路合并，…，1路合并的相 
对时间近似地和这些对角线长度的平方成比例。 


路段的初始分布 


当初始路段的实际数目不完全时，我们可以像通常那样插人 


虚拟路段。对于这一情况的粗略分析指出，分派虚拟路段的方法是无所谓的，因为 
级联合并通过完整的扫描进行 操作； 如果我们有190个初始路段，则如同上面的例 
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图73级联数的几何解释 


子那样每个记录都被处理5次，但是如果有191个，则我们就必须上升一级使得每 

个记录都被处理 6 次。幸而这个急剧的改变并非真正必需 ; David E . Ferguson 已经 

找到了一种方法来分配初始路段,使得在第一趟合并期间的许多操作都归结为拷贝 
1 条磁带的内容。当这样的拷贝关系被绕开（如像算法 5.4. 2D 中那样，通过简单地 
改变同“物理”设备号相关的“逻辑”磁带设备号）时，我们就得到了从级到级的一个 
相当光滑的转换，如图74所示。 

假设 （ a ， 6 ， c ， de ， ） 是一个完全的分布，其中 a ^ b ^ c ^ d ^ e 。通过重新定义 
逻辑磁带和物理磁带设备之间的对应，我们可以想像这个分布实际上是 （e ， d ， c ， b ， 
a )， 有 a 个路段在 T 5 上，有 6 个路段在 T 4 上，等等。下一个完全的分布是 U + 6 

+ c + <i + e,a + 6 + c + d , a + b + c t a + 6，< 2 ); 而且如果在达到下一级之前已经穷 

尽了输人，则我们假定这些磁带分别包含 0 ^ 1 ) 2 , D 3 ， D 4 ， D 5 ) 个虚拟路段，其中 

Di^a + 6 + c + ^j D 2 ^ a + 6 + c , D3 ^ a + 6 , D4 ^ a \ , D 5 = 0 

> D 2 > D 3 > D 4 > D 5 (2) 

我们现在可以自由地想像虚拟路段出现在这些磁带上的任何方便的位置。假定第 
一趟合并扫描通过五路合并产生 a 个路段，然后通过四路合并产生 6 个路段，等等。 
而我们的目标是安排这些虚拟路段以便用拷贝来代替合并。我们不妨按如下方式 
来做第一趟合并 扫描： 

1. 如果1) 4 二心则 D 1 , D 2 , D 3 , D 4 中每一个都减去 a , 并假定 T 5 就是合并的 
结果。如果 D 4 < a ， 从磁带 T1 到 T 5 合并 a 个路段，并使用的这5条磁带上的极小 
个数的虚拟路段，使得 D lf D 2 i D 3 f D 4 的新值满足 

Di ^ 6 + c + , D 2 ^ 6 + c , D3 ^ b , D 4 = 0 ; 

D x > D 2 > D 3 > D 4 (3) 

例如，如果 D 2 原来 <6 + c ，则在这一步我们不使用来自它的虚拟路段，而如果 6 + 

+ 6 + 则我们恰巧使用其中的 D 2 - 6 _ c 个。 
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初始路段 S 


图74具有算法 D 的分布的级联合并的效率 

2. (这一步类似于第一步，但已“移位”）如果 D 3 = 6, 则 Di ， D 2 , D 3 中的每一个 
都减去而且设想 T 4 就是合并的结果。如果 D 3 <6, 则从磁带 T 1 到 T 4 合并6 
个路段，必要时减少虚拟路段数以使得 

Dx ^ b + c , D2 ^ b , D3 = 0 ; Di ^ D2 ^ 

3 . 等等。 

Ferguson 的分布路段到磁带的方法，可以通过考察 （1) 中从第3级进行到第4 

级的过程来说明。假设“逻辑”磁带 （ T 1， …， T 5) 分别包含 （5 ，9, 12,14, 15) 个路段， 
而且我们最终要把它变成为 （55,50,41，29，15)。 这个过程可以概括为如表2所列。 
我们首先放置9个路段于 T 1 上，然后置（3, 12) 到 T 1 和 T 2 上，等等。如果在比如 
说步骤 （3 ，2)期间输人已经穷尽，则“节省的数量”是15 + 9 +5,意味着通过分配虚 
拟路段而避免了 15 个路段的五路合并，9个路段的两路合并，以及 5 个路段的一路 
合并。换句话说，在第一合并阶段出现于第3级的路段中，有 15 + 9 + 5 个不予处 

理。 

以下的算法详细地定义了这一进程。 
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表 2 级联分布步骤举例 

加到 T1 

加到 T2 加到 T3 加到 T4 加到 T5 “ 节省的数置 ” 


步 (1 ， 1) 
步 (2,2) 
步 (2 ， 1) 
步 (3,3) 
步 (3,2) 
步 (3 ， 1) 

步（ 4,4) 
步 (4,3) 
步 (4,2) 
步（ 4 ， 1) 


9 

3 

9 

2 

3 

9 


2 

3 

9 


12 


2 

12 


1 

2 

12 


0 

14 


14 

0 

0 


0 

0 

0 


15 


0 


15+14 + 12 + 
15+14 + 9 + 
15+ 14 + 
15+12 + 5 
15 + 9 + 5 
15 + 

14 + 

12 + 5 
9 + 5 


5 


算法 C (具有特殊分布的级联合并排序） 这个算法取初始的路段并把它们分 
散到磁带上 ，一 次一个路段，直到提供的初始路段被穷尽为止。然后它确定诸磁带 
如何被合并，假定有 T > 3 台可供利用的磁带机，同时至多利用： r -1 路合并，并避 
免不必要的一路合并。磁带 了可 用来保留输入，因为它不接受任何初始的路段。 
下列诸表是必 需的： 


我们最近达到的完全级联分布。 

AAULKjCr : 我们正在争取的完全级联分布。 

0[ ; ]，1< ; <了:假定在设备号为 ； 的逻辑磁带上要出现的虚拟路段数。 

在设备号为 ； 的逻辑磁带上希望的极大虚拟路段数。 
TAPE [_；]，1<_；< T : 对应于逻辑磁带设备号的物理磁带设备号。 


C 1 •[初始化]对于 2< k 《了置 A [ 々 ]— AA [ 々 ]— D [ A ] — 0;并置 A [ l ]—0 ，AA 

[1]—1， D [1]— 1。对于 1<々<了 置 TAPE |>] —々。最后，置 i — T -2，_; — 

1，々 —1， Z —0， m — 1，并转到步骤 C 5( 这一处理手段是通过给控制变量赋适 
当的值，以便直接跳入内循环，从而一举启动整个过程的一种办法）。 

C 2. [开始新的一级](我们刚才已经达到一个完全的分布，而且由于还有更 

多的输人，我们必须为下一级做好准备） Z 增1，对于1<々<了置 A [ A ] — 
AA [々]， 然后对于是=1，2 ,…， T - 1，以这个顺序置 AA [ T ~ k ]^ AA [ T ~ k 

+ 1] + A [ 々]。置 （TAPE [1 ]，…， TAPE [ T 一 1]) — ( TAPE [: T - 1 ] ，…， 
TAPE [1])， 并对于 置 D [々]— AA [々 + 1]。 最后置 z^-lo 

C 3. [开始第 i 个子级]置 j — i (变量 i 和 j 表示表 2 所示例子中的“步骤 G , 

；) n )o 

C 4 • [开始步骤 （ i ， j )] 置 k—j 和 A [ T _ j _ l ]。 如果 7 n =0 和则 
•置 i — 并返回 C 3; 如果772 = 0和则返回 C 2( 变量 m 表示有待 
写到 TAPE [ A ] 上的路 段数 ； m =0仅当 1 = 1 时才出现）。 

C 5. [输入到 TAPE [ A ]] 写一个路段到号码为 TAPE [ A ] 的磁带，且 DU ] 减1。 

然后如果输人已穷尽，则重绕所有的磁带并转到步骤 C 7。 
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C 6. [推进] m 减1。如果 7? z 〉0，则返回 C 5。 否则 々减 1;如果々〉0,则置 77 Z — 

A [: T - 厂 1]- A [: T - j ]， 并且若 m >0, 则返回 C 5。 否则 j 减1;如果 j >0, 
则转到 C 4。 否则 i 加1;如果则返回 C 3。 否则转回 C 2。 

C 7. [准备合并](这时初始分布已经完成，而且 AA 、 D 和 TAPE 诸表描述了磁 

带的现状）对于 1< 々 < 了置 M[A]—M[A + 1] ，并置 FIRST— 1( 变量 FIRST 

只在第一趟合并扫描期间非0)。 

C 8. [级联]如果 Z =0, 则 停止； 排序完成并输出在 TAPE [1] 上。否则，以/> = 

T -1, T -2,***,1 这个次序，进行从 TAPE[1] ， … ， TAPE[p] 到 TAPE[p + 1] 

的路合并如下 ：如果 /? = 1，则通过简单地重绕 TAPE [2]， 模拟一路合并， 
然后交换 TAPE [1]^ TAPE [2] 0 否则如果 FIRST = 1 且 D [ f - 1 ] = M [ - 1 ] ， 
则通过简单地交换 TAPE [ p ] ^ TAPE [ /? + 1 ] ，重绕 TAPE [ p ] ，并从每个 D [ 1 ] ， 
…， D [/?- l ]， M [ l ]， …，都减去 M [ p _ l ]， 模拟路合并。否则从 
每个以[1]，*“，以[/?-1]减去1^[/?-1]。然后从每个满足且使 
Db ']< M [ j ] 的 TAPE [ ; ] 合并一个 路段； 从每个满足 l « p 且使 D[j ] > 
M [ j ] 的 D [ j ] 减1;并且置输出路段到 TAPE [ p + 1]上。继续进行这一动作 
直到 TAPE(f ) 成为空为止。然后重绕 TAPE [ p ] 和 TAPE [/> + 1]。 

C 9. [下降一级 ]I 减 1，置 FIRST — 0,且置 （TAPE [1 ] ，…， TAPE [: T ])— 

(TAPE[T], … ， TAPE[1]) (这时，所有的 D 和 M 皆为 0, 而且将保持如此）。 
返回 C 8。 ■ 

此算法的 C 1 〜 C 6 步进行分布，而 C 7 〜 C 9 步进行 合并； 这两个部分彼此是完全 
独立的，而且将有可能在相同的存储单元中来保存 M [々] 和 M[A + 1]。 



图75具有特殊分布的级联合并 

• 277 • 





5 章排序 


级联合并的分析 比起多阶段的情况来，级联合并有些难以分析，但由于出现 
了许多引人注意的公式，因而这个分析是特别有趣的。建议喜欢离散数学的读者， 
在进一步阅读之前 ，自己先来研究级联分布，因为这些数具有那么多不寻常的性质， 
去发现它们是一件快事。在这里，我们将讨论众多分析方法之一，并且强调可以发 

现结果的方法。 

为了方便，我们考虑6个磁带的情况，并找出可以推广到 所有了 的公式，关系 
(1) 导出第一个基本的模式： 




设 AU ) 




n^O 


a n z n ，…， E ( z ) 


S 


n ^0 




并定义多项式 




(4) 的结果可概括如下：生成函数 B ( z )~ qi ( z ) A ( z ), C ( z )~ q 2 ( z ) A ( z) i 


D ( z ) ~ Q3 ( z ) A ( z ) 和 E ( z ) — g 4 ( z ) A ( 2 ：) 简化为对应于 a - i ， a _ 2 ， a -3 …的值的 

有限和，对于小的 n ， 它们出现在 （4) 中但不出现在 A ( z ) 中。为了提供适当的边界 
条件，让我们向后往负的方向向后运行递归式直到_ 8 级： 


n 


b n 


d n 

e n 

0 

1 

0 

0 

0 

0 

- 1 

0 

0 

0 

0 

1 

-2 

1 

-1 

0 

0 

0 

-3 

0 

0 

0 

-1 

2 

~4 

2 

-3 

1 

0 

0 

一 5 

0 

0 

1 

-4 

5 
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— 6 

5 

-9 

5 

-1 

0 


0 

一 1 

6 

-14 

14 

-8 

14 

-28 

20 

-7 

1 


在7个磁带上，这张表也是类似的，只是 奇数； 2 的项右移一列。序列 a 0 , a _ 2 , a _ 4 , 

…=1，1，2,5,14,…对于计算机科学家来说是司空见惯的，因为它同如此多的递归 
算法相关联而岀现(例如习题 2.2.1-4 和等式 2.3.4.4-(14)); 我们因此猜想在： T - 
磁带的情况下 


(2 n \ 1 , . ^ 

a ~ 2 n — ) T - T 对于 《丁 — 2 

\ n i n + \ ( 6 ) 

a - 2 n -\ = 0 对于 0 < n < 丁 — 3 


为了验证这个选择是正确的，只要证明 （ 6 ) 和 （4) 对于第 0 级和第 1 级产生正确的结 
果即可。在第 1 级上，这是显然的，而在第 0 级上，我们要对 0 < m <: r - 2 , 验证 



2 ( 

k >0 x 



= 8 


mO 


幸而这个和可以通过标准的技术来 求值; 事实上，它是 1.2 4 小节的例 2 。 


(7) 


现在我们可以计算 su ) - h ( z ) AU ) 等的系数。例如，考虑 DU )- 
g 3 ( z ) AU ) 中的系 数：由 1 . 2 . 6 小节中例 3 的结果，它是 



k^O 


^3 + m + k ^ 
\ 2 m 2 k ) 



m + 是 _ 

a -2 k 




+ m 



k \(2 k 


k >0 


2 


m 



_ 1) 


m + k 


2 k I 


k 


k 







2m I 


因此我们已经推岀 

A ( z ) = q 0 { z ) A ( z ) 

B ( z ) = q 1 ( z ) A ( z ) - q 0 ( z ) C ( z ) = q 2 ( z ) A ( z ) - q x ( z ) 

D (之） = q 3 ( z ) A ( z ) - q 2 ( z ) E ( z ) = q 4 ( z ) A ( z ) - q ^( z ) 

进而我们有心 + 1 = ^;因此 2 ： A ( z ) = £( 2 ) ，而且 


( 8 ) 


A ( z ) = q 3 ( z ) Kq 4 ( z ) - z ) (9) 

借助于 g 多项式，现在已经推导出了生成函数，因而我们想要对 7 有更好的了 

解。习题 1.2.9-15 在这方面是有用的，因为它给了我们一个“封闭的”形式，它可以 
写成 


7 / X _ ((74 - z 2 + iz )/2 ) 2m + 1 + ((74 - - iz )/2 ) 2m + l 

Hm \ z / _ 7- 

\/4 — z 2 


( 10 ) 
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如果我们现在置 z = 2 sin 0 则一切都简 化了: 


q m (2 sin d ) 


cos Q + i sin 6) 


2/72 + 1 



(cos d - i sin 6) 


2m + 


COS 


(2 


m 





2 cos Q 


cos 6 


(id 

这种巧合导致我们猜想多项式在数学上是已 知的； 确实，看一下适当的 

上是第二类的契比雪夫多项式，即是通常符号下的 


表将发 现，^ ^ Z ) 实质 

(_1)UW2) 0 


我们现在可以确定 (9) 中分母的根：(? 4 (2 sin 6)^2 sin 6 归结为 


cos 96 


2 sin 0 cos 



sin 2 d 


当 ±90 = 20 



2 n — 


2 


TT 时，我们能得到这个关系式的解；而且若 COS 0=0,则所有 


这样的 0 都提供 (9) 中分母的根（当 COS 0 




0时， 




m 


±2) = + ( 2 m + 1) 决不等于 


±2)。因此得到 q 4 ( z)-z = 0 的下列8个不同 的根: 


2 sin 


- 5 


1 



- 7 


14 


丌， 2 sin 2 sin 2 sin ^^ TC , 


2 sin 


3 



22 


Tty 2 sin 2 sin 2 sin 



22 


22 


22 


IT 


由于是 8 次多项式，这已枚举了所有的根。这些值的前3个值使得 qM 二 
0,所以 (^( Z ) 和 94(20 _ Z 有一^个三次多项式作为公因子。如果我们展开 （9) 为部 

分分式，则其余5个根支配了 AU ) 的系数的渐近特性。 

在考虑一般的丁-磁带的情况下，令心=(4々+ 1) tu /(4 丁 - 2) 。丁-磁带级联分布 

数的生成函数 AU ) 取形式（见习题 8) 


4 



cos 


2 


h 


2 T -1 — t/2 # lt/2 」1 


— zl (2 sin 0 裊 ) 


( 12 ) 


因此 


4 


n 


a 


n 


IT - 1 



cos 2 0 灸 


-Tl2<k<lTl2j 


2 sin 0 走 ) 


(13) 


等式 (8) 现在导致类似的公式 

4 



n 


2 T - 1 



cos 0^ cos 30^ 


1 


n 


-Tii<k<vrn\ 


2 sin 0^ 


4 


n 


C 


n 


2 T - 1 



cos 0 ^cos 50 务 


- Tl2<k<lTl2] 


2 sin Q k 


(14 


/ 


d 


4 


n 


n 


IT 



0 是 cos 70 


-Tl2<k<lTl2] 


0 


等等。习题 9 说明对于所有 72>0 而不仅仅对于大的 72, 这些等式都成立。在每个 
和式中4=0的项髙于所有其余的项，特别是当72相当 大时； 因此“增长率”为 


2 sin 0 q 


2 

丌 


T - 



7T 


+ 


命 + 0(T 


-2 


(15 


\ 
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W . C . Carter 首先分析了级联排序 [ Proc./FIP Congress (1962) ，62〜 66] ，他得 
到了对于小的丁的数值结果， David E . Ferguson 也进行了分析[见 CACM 7(1964)， 

297]，他发现了增长率的渐近特性 （15) 中的前两项。1964年夏, R . W . Floyd 发现了 
增长率的明显的形式 1/(2 sin %)，于是对于所有的： T 都可以使用准确的公式。 

G . N . Raney 独立进行了级联数的一^个深人细致的分析 [Canadian J . Math . 18(1966) , 
332〜 349], 他以与排序毫无关系的完全不同的方式来研究它们。 Raney 观察了图 
73的“对角线比率”原理，而且导出了这些数的许多其它有趣性质。 Floyd 和 Raney 
在他们的证明中使用了矩阵处理（见习题6)。 

级联排序的修改 如果再加上一条磁带，则在级联排序期间，就有可能覆盖几 
乎所有的重绕时间。例如，我们可以把 T 1 〜 T 5 合并到 T 7, 然后合并 T 1 〜 T 4 到 
T 6, 然后合并 T 1 〜 T 3 到 T 5( 它现在已被重绕），然后合并 T 1 〜 T 2 到 T 4, 而当已经 
重绕了 T 4 上的比较短的数据时，即可开始下趟扫描。从对级联的上述分析中，即可 
预测这一过程的效率(关于进一步的信息见 5.4.6 小节）。 

在 CACM 6 (1963),585 〜 587中， D . E . Knuth 提出了一个“折中合并”的方案，它 
包括多阶段和级联两者作为特殊情况。每个阶段都由： T -1 路，： T -2 路，…， P 路 
合并组成，其中 P 是1和： T -1 之间的任何固定数。当 P = 丁-1时，这是多阶段 
的。而当 P = 1时，它是纯粹的级联。当 P = 2时，它是没有拷贝阶段的级联。 
C . E . Radke 已经对这个方案进行了 分析 [IBM Systems J . 5 ( 1966 ) ，226〜247 ] 0 
W . H . Burge 也进行了分析 [Proc IFIP Congress ( 1971 ) ， 1 ， 454 〜 459 ] 。 Burge 找到了 
对于每个 （ P ， T ) 折中合并的生成函数2了„(工）/，并推广了等式 5.4.2-(16); 他证 

明，当 S — 〜时，从作为 S 的一个函数来处理的最少初始路段的观点（利用一个直截 
了当的分布方案，并忽略重绕时间），则对于丁 =(3,4,5，6,7,8 ,9,10,11)， P 的最好 
值分别为（2,3,3,4,4,4,3,3,4)。当： T 增加时 P 的这些值更接近于级联而不是更 
接近于多 阶段； 由此得出，折中合并决不实质性地好于级联。另一方面，如同 5.4.2 
小节所述，在选择最优的级数和最优的虚拟路段分布的情况下，纯粹的多阶段法似 
乎在所有折中合并中是最好的。不幸的是，最优分布比较难以实现。 

Th . L . Joh nS en [ BrT 6( l %6)，129 〜 143] 研究了平衡的和多阶段合并的 组合; 

M . A . Goetz 提出平衡合并的 一 ^个重绕重叠的变种 [ Digita / Computer User's Hand ¬ 
book f M . Klerer 和 G . A . Korn 编 （ NewYork : McGraw - Hill , 1967) ， 1.311 〜 1.312]; 另 

外，还可以想像出许多其它混合的方案。 

习题 


1- [川]利用表1,试比较级联合并和 5.4.2 小节中所述的多阶段法的分带方案。问哪一个 
更好（忽略重绕时间）？ 

► 2. [22] 比较在3条磁带上利用算法 C 的级联排序和利用算法 5.4.2 D 的多阶段的排序，它 
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们之间有什么类似性和差别？ 

3. [23] 编制一张表，说明当在6条磁带上利用箅法 C 对100个初始路段排序时所发生的情 
况。 

4. [ M 20] ( G . N . Raney ) —个“第 n 级级联分布”是如下定义的多重集合（在 6 条磁带的情 
况下） ： | 1 ， 0 , 0 , 0 , 01 是第 0 级级联分布；而且如果丨^乃^，^^ 1 是第/ 2 级级联分布，则 U + 6 + c 
+ d + e y a 6 + c + < i，<2 + 6 + c，a + 6 ，< 2l 是第 n + l 级级联分布（因为 一 个多重集合是未排序 

的，从单单一个第„级的分布可以形成达5!种不同的第 U +1) 级分布）。 （ a ) 证明，互质整数的 
任何多重集合，都是对于某个《的第 n 级级联分布。 （ b ) 证明，在下列意义下，对于 
级联排序定义的分布是最优的，即如果 U ,6， c ， d ， el 是使 a > b > c > d > e 的任 何第” 级分布，则 
我们有 a ^： a n ， b < b n y c ^ c n ， d < d „ ， e < e n ，其中丨 ， <^ ， 1 是在 （1) 中定义的分布。 

► 5. [20] 证明 （1) 中定义的级联数满足定律 

cL k cL n -k + b k b n - k + c k c n - k + d k d n - k + e k e n - k = a n 对于 

提示 ：通过 考虑在一个完整的级联排序的第々趟扫描期间，共输出了多少各种长度的路段， 
来解释这个关系式。 

6. [ M 20] 求一个 5 X 5 矩阵 Q ， 使得对于所有 n >0， Q n 的第一行包含6条磁带的级联数 


a” ， b n ， c n ， d n ， e n 。 

1. [ M 20] 假定级联合并被应用于心个初始路段的一个完全分布，试求当禁止一路合并时 

所节省下的工作量的公式。 

8. [ HM 23] 推导（12)。 

9. [ HM 26 ] 推导（14)。 

► 10. [ HM 28] 不使用型式 （4) 来开始级联数的研究，而由恒等式 



d n — 2a n -i 


-2 




a n-3 


C 


rt — 



d n - 


2 


2〜- 


2 


/3\ 

VI/ 


a n-l 


(4\ 
V3 / 



等开始，令 



用这些 r 多项式来表达 A ( z ) ， B ( z ) ，等等。 


11. [ AOS ] 设 


m 


fm(Z) 



L ( 




k 


_ 1) 


「 kl2 飞 k 


证明，了-磁带级联数的生成函数 AU ) 等于其中这个表达式中的分子和分母 


没有公因子。 

12. [ M 40] 证明在下面的意义下， Ferguson 的分布方案是最优的。即在第一次扫描期间任何 
满足 (2) 的分配虚拟路段的方法，都不能减少需要处理的初始路段个数 ，假定 在这个扫描期间使用 
步骤 C 7 〜 C 9 的策略。 

13. [40] 正文中提议通过增加一条额外的磁带来覆盖大多数重绕时间。试剖析这个思想 
(例如，正文中的方案包含等候 T 4 重绕； 如果从下次扫描的第一个合并阶段省略 T 4, 是否将更好 
些）。 


• 282 • 



5.4.4 向后读带 


5.4 外部排序 


许多磁带机都有从同写人的方向相反的方向来读带的能力。我们迄今遇到的 
合并型总是以“向前”的方向把信息写到磁带上，然后重绕磁带，向前读，然后再次重 
绕它（因此磁带文件像队列那样，以先进先出的方式来操作）。而向后读允许我们消 
除上面的两个重绕操作 ：即我 们向前写磁带和向后读它。在这种情况下，文件像栈 
那样处理，因为它们以后进先出的方式被使用。 

平衡的、多阶段的，以及级联合并型式都能够适应向后读。主要差别是，当我们 
向后读和向前写时 ，合并颠倒了路段的顺序。 如果两个路段在磁带上有递增的次 
序，则我们在向后读时可以合并它们，但这产生了递降的次序。这样产生的递降的 
次序，在下次扫描时将随继变成为递增的次序，所以合并算法必须有能力来处理递 
增或递降次序的路段。一个第一次向后读的程序员会经常感到他自己是倒立着的！ 

作为向后读的一个例子,考虑利用平衡合并在4条磁带上合并8个初始路段。 
这些操作可以综述 如下： 


T 1 T 2 

扫描 1 

扫描2 — — 

扫描3 A 4 A 4 

扫描4 — — 





T 4 



初始分布 

D2D2 

合并到 T 3 和 T 4 


合并到 T 1 和 T 2 


最后合并到 T 3 


这里 A r R 表相对长度为 r 的路段，如果像我们以前的例子那样向前读这条磁带，则 

它的次序是递 增的； 认代表长度为 r 的递降的相应路段。在第2次扫描期间递增 

的路段变成递 降的； 在输人时它们表现为递降的，因为我们在向后读。在第3次扫 
描时，它们又转换了方向。 

注意，上边的过程以按递降次序出现在磁带 T 3 上而结束。如果这样不行（依赖 
于输出是否向后读，还是被卸下并取走以供将来使用），则我们可以把它拷贝到另一 
条磁带上，同时逆转方向。 一 种较快的方式是在第3次扫描后重绕 T 1 和 T 2, 并且 
在第4次扫描时产生 A 8 。 还有一种更快的方式是在第一次扫描期间从8个递降路 

段开始，因为这将交换所有的 A 和 D 。 然而，对于16个初始路段的平衡的合并将要 

求初始路段是递 增的； 而且由于我们通常预先并不知道将形成多少初始路段，因此 

有必要来选择一个一致的方向。所以，在第3次扫描之后重绕的思想，大概是最好 
的。 

级联合并以相同的方式进行。例如，考虑在4条磁带上对14个初始路段 排序： 


T 1 

扫描 1 A^AjAiAiAjAi 
扫描2 - 

扫描3 A 6 

扫描 4 一 


T 2 T 3 

A A 1 A 1 






14 
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又是如 此:如 果我们恰在最后一次扫描之前重绕丁1，丁2，丁3，则我们可以产生 A 14 而 

不是 D 14 。 注意，在所有的一路合并都已明显执行的意义下，这是一个“纯粹的”级 

联合并，如果刚才像算法 5.4.3 C 那样禁止拷贝操作，则在第2次扫描后我们将面临 
情况 

一 D2D2 

而且已不可能继续三路合并，因为我们不可能合并处于相反方向的路段！如果我们 
重绕 T 1 而且在下一个合并期间向前读它（同时向后读 T 3 和 T 4)， 则可避免拷贝 T 1 
到 T 2 的操作。但在合并之后再次需要重绕 T 1， 所以这技巧以两次重绕来交换一次 
拷贝。 

因此算法 5.4.3. C 的分布方法对于向后读并不像向前读那样 有效； 每当初始路 

段数通过一个“完全”的级联分布数时，所需要的时间数量有一颇为急剧的跳跃。另 

一种散布的技术可用来给岀在完全的级联分布之间的一个更为光滑的转换（见习题 
17)。 


向后读的多阶段法乍一看去（甚至第二次和第三次看去），多阶段合并方案似 
乎完全不适合于向后读。例如，假设有13个初始路段和3条 磁带： 

T1 T2 T3 

阶段 1 Ai Aj Aj A ] A 1 A 1 A 【 A 丄 A ^ A 1 A 1 A 1 A 1 — 

阶段 2 AiA^Ai D 2 D 2 D 2 D 2 D 2 

现在我们 停住； 我们可以重绕 T 2 或 T 3, 然后向前读它，同时向后读其它磁带，但这 
将得到颇为混杂的情况，而且通过向后读我们获益颇小。 

一种弥补这种情况的巧妙想法是交替每条磁带上的路段方向。这样，合并即可 
完全同步地进行： 




丁 2 丁 3 

阶段 1 



阶段 2 


DyA[Di D 2 A 2 D 2 A 2 D 

阶段 3 


D2A2 

阶段 4 

^3 

D5 a 5 

阶段 5 


D5 D 8 

阶段 6 

A13 



这一原理是由 R . L . Gilstad 在他关于多阶段合并的开创性论文中简略地提到的，他 
在 CACM 6(1963),220 〜223中又做了更详细的描述。 

对于 任何数 目的磁带上的多阶段合并， ADA …技术都能有效地 工作； 因为我们 
可以证明，在每个阶段 A 和 D 都将被适当地同步，为此仅仅假定初始的分布扫描在 
每条磁带上产生交替的 A 和 D ， 而且每条磁带都以 A 结束（或者每条磁带以 D 结 
束）： 因为在一个阶段期间写到输出文件上的最后路段，和由输入文件所取来的最后 
路段的方向相反，因此下一阶段总发现它的路段处于适当的方向。进而我们在习题 
5.4.2-13 中已经看到，大多数完全的斐波那契分布都要求在一条磁带上有奇数个路 
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段（最后的输出磁带），而在其它的磁带上都有偶数个路段。如果把 T 1 指定成最后 
的输出磁带，则我们因此能够保证，如果 T 1 以 A 开始，而且剩下的磁带都以 D 开 
始，则所有的磁带都以 A 路段告终。可以使用类似于算法 5.4.2 D 的一个分布方 
法，但修改成使在每级上的分布以 T 1 作为最后的输出磁带（我们跳过级1，了+ 1, 
2了 + 1，…，因为在这些级中，起始为空的磁带是最后的输出磁带）。例如，在6条磁 
带的情况下，我们可以使用下列的分布数代替 5.4.2-(1)： 

级 T 1 T 2 T 3 T 4 T 5 总共 最后的输出将在 

0 1 0 0 0 0 1 T 1 

2 1 2 2 2 2 9 T 1 

3 3 4 4 4 2 17 T 1 

4 7 8 8 6 4 33 T 1 ⑴ 


5 

15 

16 

14 

12 

8 

65 

T 1 

6 

31 

30 

28 

24 

16 

129 

T 1 

8 

61 

120 

116 

108 

92 

497 

T 1 


于是， T 1 总得到奇数个路段，而 T 2 到 T 5 得到偶数个路段，路段按递降次序排列， 
这是为了在支配虚拟路段时具有灵活性。这样一种分布有其优点，即最后的输出磁 
带是预先知道的，而不管有待出现的初始路段数是多少。结果（见习题3)，当使用 
这个方案时，输出将总是以递增的次序出现在 T 1 上。 

D . T.Goodwiri 和 J . L.Venn 已经提出了用于处理向后读多阶段分布的另一个 
方法 [CACM 7(1964),315]。 若每条磁带上都以一个 D 路段开始，我们几乎可以像 
在算法 5.4.2 D 中那样分布路段。当耗尽输人时，除非已经达到对全部奇数编号的 
磁带的分布了，否则即想像有一个虚拟 A 路段在惟一的“奇数”磁带开始处。其它 
的虚拟路段想像成都在磁带的末端，或者组成为位于中间的对偶。下面的习题 5 中 
分析了虚拟路段的最优放置问题。 

最优合并型式 迄今我们已经讨论了关于合并到磁带上的各种型式，但没有问 
及“最好”的方法。要确定最优的型式似乎是十分困难的，特别是在向前读的情况 
下，其中重绕时间同合并时间的相互作用难以处理。另一方面，当通过向后读和向 
前写完成合并时，所有重绕实质上都被消去，而且有可能得到相当好的最优合并型 
式的特性 。 Richard M . Karp 引进了某些非常有趣的方法来解决这个问题，我们将通 
过讨论他所提岀的理论来结束这一小节。 

首先，我们需要一种更令人满意的描述合并型式的方式，来替代前面所使用的 
“磁带内容”图。 Karp 提出了两种方法来做这件事，即合并型式的向量表示和树表 
示。这两种表示形式实际上都是有用的，所以我们将依次来描述它们。 

一个合并型式的向量表示，由一系列“合并向量⑴ / G ) 所组成，它们每 
一 个都有 了个 分量。以如下方式用来表示倒数第 z 个合 并步： 

1如果第 j 号磁带是对于合并的一个输入 

= 1 0 如果第 j 号磁带在合并中未用 (2) 

U 1如果第 j 号磁带得到合并的输出 
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于是，3^ (2) 恰有一个分量为 -1， 而其余的分量为0和1。最后的向量^⑻是特 殊的; 
它是单位向量，如果最后的排序输岀出现在第 ； 号设备处，则该向量在位置 ； 处有 
1，其余处则为0。此定义意味着，向量和 



表示倒数第 f 个合并步之前磁带上路段的分布。特别是， i U) 说明初始分布扫描安 
置多少个路段到每条磁带上。 

把这些向量倒着编号，即从 y — 开始而以 y Q ) 结尾，似乎并不方便，但是这种特 
殊的观点对发展这一理论是有利的。为了寻找一个最优的方法，一个好办法就是以 
排好序的输出开始，并且想像把它拆开到各条磁带上，然后再拆开这些，等等，同时, 
以同它们在排序过程中实际出现的顺序相颠倒的顺序，考虑依次的分布 ⑻， r ； ⑴， 

t / 2) ，…。 实质上，这就是我们在对多阶段和级联合并进行分析时，已经采取的方 
法 。 

在本节中最先以表格形式描述的3种合并型式有下列向量 表示： 

平衡的（丁 = 4, S = 8) 级联 （T = 4 ，S = 14) 多阶段 （T = 3 ,S = 13) 

t ⑺ =( 4，4，0, 0) v (l0) = ( 6, 5, 3, 0) t / 12) = ( 5，8， 0) 

:/ 7) = ( + 1，+ 1， - 1， 0) : y (10) = ( + 1，+ 1，+ 1，-1) : / 12) = ( + 1，+ 1， - 1) 

3；⑹ = ( + !, + !, 0,-1) ^ 9 ) = ( + 1，+ 1，+ 1，- 1) ) (11) = ( + 1，+ 1，-1) 

夕⑸= ( + 1，+ 1， - 1， 0) : y (8) = ( + 1，+ 1，+ 1，- 1) : y (10) 二 （ + 1，+ 1， - 1 ) 

： y (4) = ( + l , + l ， 0,-1) ：/ 7) = ( + 1，十1，-1， 0) y ⑼=( + 1 ，，- D 

: y ⑶ =(-1, 0, + 1, + 1) : y (6) = ( + 1，+ 1，_ 1 ， 0) : y ⑻= ( + 1，+ 1, - 1) 

:/ 2) = ( 0，_1，+ 1，+ 1) : y ⑸=(+ 1，-1，0， 0) : y ⑺=(_1，+ 1，+ 1) 

V 1 ) = ( + 1，+ 1, _ 1, 0) V 4 ) = (- 1，+ 1, + 1，+ 1) : y ( 6 〉 = ( - 1，+ 1，+ 1) 

: y (0) = ( 0, 0, 1, 0) :/ 3) = ( 0，-1，+ 1，+ 1) :/ 5) = (-1，+ 1，+ 1) 

_ y ( 2 〉= ( 0, 0，-1，十1) : y ( 4 ) = ( + l ，— 1,十 1) 

: y ⑴ 二（+ 1，+ 1，+ 1，-1) ：/ 3) -( + 1,-1,+ 1) 

: y (0) = ( 0, 0，0， 1) ^⑵十 ^，- D 

:1，+ 1， +1) 

:/ 0) 二（1, 0， 0) 

每个合并型式显然有一个向量表示。反之，容易看到，向量序列 ^ U) -^ (1) ^ (0> 
对应于一个实在的合并型式的充要条件，为下列3 点： 

是一个单位向量。 

ii ) 对于爪>〗>1，3^ ) 恰有一个分量等于-1，所有其余的分量为0或+ 1。 

iii ) 对于>1， /) +…+ jyd ) + : y ⑼的所有分量非负。 

一个合并型式的“树表示”给岀了同样信息的另一种图示。我们构造一株树，对 
于每个初始路段有一个外部“叶”节点，对于被合并的每个路段有一个内部节点，构 
造的方式 是：每 个内部节点的后裔是那样一些路段，该内部节点是从这些路段制作 
出来的。每个内部节点都以对应的开始时的步骤号作为标号，并且像在向量表示中 
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那样，步骤是向后编 号的； 进而，每个节点上面的边以路段所在的磁带名来标出。例 
如，上述的3种合并型式有图76中所描述的树表示，其中我们称磁带为 
D , 以代替 T 1, T 2, T 3, T 4。 


平衡的 （ r =4, 5 = 8) 级联（了=4, 5=14) 



多阶段（了 = 3, 5 = 13) 



图76 3种合并型式的树表示 


这个表示以方便的形式揭示了合并型式中许多有关的 性质； 例如，如果树的0 
级(根）上的路段是递增的，则1级上的路段必定是递降的，在2级上的那些必定是 
递增的，等等；一个初始路段是递增的，当且仅当对应的外部节点在一个偶数号级 
上。进而,在合并期间处理的初始路段的总数(不包括初始分布）恰等于这株树的外 
部路段长度 ，因为在々级上的每个初始路段都恰被处理 々次。 

每种合并型式都有一个树表示，但不是每个树都定义一种合并型式。 一 株其内 
部节点已经以数1到 m 标号，而其边已经以磁带名标号的树，表示一种正确的向后 
读的合并型式的充要条件为 

幻凡邻接于同一内部节点的两边，磁带名都不相同。 
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b) 如果 i > J /，且如果 A 是一个磁带名，则这树不包含下列形状 


© 

4 

6 


C) 如果 f <)<々</,而且如果 A 是一个磁带名，则这株树不包含下列形状 


0 


>4 和 
© 



或 


O 

4 


和 



(4) 


条件 a) 是自明的，因为在一个合并中输入和输出的磁带必须是不 同的； 类似地， b) 也 
是显然的。“无交叉”条件 c) 反映了后进先出的限制，它表征了在磁带上向后读的操 
作：在步骤々 中形成的一个路段，必须比同一磁带上以前形成的先 撤销； 因此 （4) 中 
构形是不可能的。不难验证,任何满足条件 a),b),c) 的磁带标号的树确实对应于一 
种向后读的合并型式。 

如果有丁台磁带机，则条件 a ) 意味着每个内部节点的次数为丁 _ 1或更 
小。对所有这样的树并不总能附加上适当的 标号； 例如，当丁 = 3时，没有其树的形 
状为 



(5) 


的合并型式。如果我们能以适当的方式附加步骤号和磁带名称，则这个形状将导致 
一个最优的合并型式，因为它是在有4个外部节点的一株树中达到极小外部路段长 
度的惟一途径。但由于图式的对称性 〔实 质上仅有一种方式按照条件 a) 和 b) 来加 
标号，即 



但这同条件 c) 相冲突。可以按照上述条件，利用至多 了个磁 带名称加上标号的一 
种图形，称为丁 _Ufo(T- 后进先出）树。 
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另外还有一种方式，可以刻划产生于合并型式的所有磁带标号树，即考虑怎样 
能“长岀”所有这样的树。从某个磁带名称，比如说 A ，以及以树秧 



开始。在树生长过程中的第 f 步为选择不同的磁带名称…，并把对 
应于 B 的最近形成的外 部节点 



改变成 



(7) 


这个“最后形成，首先生长”的规则，精确地说明了树表示可以怎样从向量表示直接 
地构造出来。 

要确定严格最优的 T - 磁带合并型式，即从具有给定外部节点数的所有 T-lifo 
树中选出具有极小路径长度的树，似乎是十分困难的。例如，下列并非显然的型式, 
可证明是向后读、合并4条磁带上7个初始路段的一种最优 方式： 



( 8 ) 


为达到最优，一个一路合并实际上是必不可少的（见习题 8)! 另一方面，对于 
任何固定的： T ， 要给岀接近最优的构造，倒并不那么困难。 

设 KrU ) 是在具有 n 个外部节点的一株: T - lifo 树中可达到的极小外部路径长 
度。由 2.3.4. 5小节中展示的理论，不难证明 


Kt( n ) ^ nq ~l((T - I ) 9 - n)j(T - 2) J , q = r log T _! n ] (9) 

因为这是具有 n 个外部节点且所有节点的次数 < 了的任何树的极小外部路径 
长度，现在确切地知道的 K T (72) 的值比较少。下面是部分上限，它们大概是准确 
的： 


* 


289 





第 5 章排序 


n = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 

K s ( n ) < 0 2 5 9 12 16 21 25 30 34 39 45 50 56 61 ⑽ 

K 4 ( n )<, 0 2 3 6 8 11 14 17 20 24 27 31 33 37 40 

Karp 已经发现，任何其内部节点的次数 <T 的树都是准 T-lifo 的，就是说，只要 
改变某些外部节点成为一路合并，它就变成 T-Ufo 的了。事实上，构造一组适当的 
标号是相当简单的。令 A 是一个特殊的磁带名称，则构造方法 如下： 

步骤 1. 假定特殊名称 A 仅用在一个分支的最左边的边上，则以同上述条件 a ) 
相一致的任何方式，把磁带名称附加到树图式的诸边上。 


B 


步骤2,每当 B ^ A 时以 


0 


代替形如 






的每一外部节点。 


步骤 3. 按先序 （ preorder ) 为树的内部节点编号，结果就是满足条件 a )， b )， c ) 的 

一株磁带标号树。 

例如，如果我们从树 



( 11 ) 


和3条磁带开始，则这个过程可以赋标号 如下: 
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( 12 ) 


□ □ □ □ □ □ 

不难验证， Karp 的构造满足“最后形成，最先生长”的规则，这是由于先序的本性所 
致（见习题12)。 

这个构造的结果是一个合并型式，它所有的初始路段都出现于磁带 A 上。它 
提示了以下的分布和排序方案，我们可以称之 为先序合并。 

P1. 分布初始路段到磁带 A 上，直到输人被穷尽为止。设 S 是初始路段的总 

数。 

P2. 利用具有 S 个外部节点的一株极小路径长度的： T-1 叉树，进行上述构造， 

得到一株其外部路径长度在 （9) 中下限的 s 倍之内的: r-iif 0 树。 

P3 •按照这一型式合并诸路径。 ■ 

这个方案将在任何所希望的磁带上产生它的输出。但它有一个严重的缺陷 
——读者看出是什么了吗？它的问题在于合并型式要求开始时在磁带 A 上的某些 
路段是递增的，某些是递减的，这取决于对应的外部节点是出现在奇数级上还是出 
现在偶数级上。这个问题，通过在恰好需要之前，把应是递减的诸路段，拷贝到一条 
或多条辅助磁带上，就可无须预先知道 S 而解决。然后，用初始路段的长度来表 
达，处理的总数量为 

s logT^S + O(S) (13) 

于是，当 S—oo 时，先序合并肯定好于多阶段或级联合并。其实，它是接近最优 
的，因为 （9) 表明， s + o(s) 是我们在： r 条磁带上所能希望达到的最好者。 

另一方面，对于在实践中通常出现的较小的 S 值，先序合并是相当低效 的：当 S 相 
当小时，多阶段法或级联方法是更简单和更快的。也许有可能想岀一种简单的分布 

和合并方案，对于小的 s 值，它足以同多阶段法和级联法匹敌，而对于大的 S， 它是 
接近最优的。 

以下的第二组习题表明 Karp 如何以一种类似的方式陈述了向前读合并的问 

题。在这种情况下，这个理论证明是更为复杂的，尽管已经发现了某些非常有趣的 
结果。 
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习题——第一组 

1 . [ J 7] 在向前读合并时，用一个键码为+〜的人造“哨兵”来标志磁带上每个路段的结尾往 
往是方便的。试问当向后读时，如何修改这一做法？ 

2. [20] 类似 （1) 的一个数组的诸列将总是非减的吗？或者，是否有这种可能，当我们从一级 
进行到下一级时，将要从某条磁带“减”去一些路段？ 

► 3. [20] 证明 ：如果 T 1 原来从 ADA …开始，而 T 2 到 T 5 以 DAD …开始，则当时 （1) 的完全分 
布使用向后读多阶段合并后，在排序完成时，将总是在磁带 T 1 上得到一个 A 路段。 

4 .[ M 22 ] 在以递增次序分布所有路段之后，做向后读多阶段合并是一个好的想法吗？想像 
所有的 “ D ” 位置开始时都填以虚拟路段。 

► 5. [23] 当使用向后读多阶段合并时，合并数的序列将有什么公式，以代替 5.4. 2小节的（8)， 
(9)，（10)和 （11)? 通过画出类似图 71( a ) 的一个图形，说明在6条磁带上第5级分布的合并数。 

6. [07] 树表示为 （8) 的合并型式，其向量表示如何？ 

7. [ i 6] 画出由下列向量序列定义的向后读合并型式的树 表示： 

v i33) = (20 , 9, 5) / 22) = ( + 1,-1，+ 1) / 10) = ( + 1，+ 1, — 1) 

: y (33) = ( + 1,-1, + 1) : y( 21 〉 = ( - 1 ， + 1 ， + 1 ) ： y ⑼ = (+ 1 ， - 1 ， + 1) 

3 ； (32) = ( + !, +i,-i) 3 ,( 20 ) = ( + l, + i,-i) 3 ， <s)-( + 1 , + 1 , - 1 ) 

/ I ) = ( + 1 ， + 1 ， - 1 )) ⑽ = (- l , + l , + l ) y (1) = ( + 1 , + 1 , - 1 ) 

3 ； ⑽ = ( + i ) + i ,- i ) yds ) = ( + 1 , + !,-!) 3 ,( 6 ) = ( + l , + l ,- l ) 

3 / 29 ) = ( + 1 ,- 1 , + !) y ⑼ = ( + l , + l ,- l ) 3 ,(^ = ( - 1 ， + 1 ， + 1 ) 

^ (28) = ( - 1 ， + 1, + 1) : y( 16 ) = ( + 1 ， + 1 ， _ 1) ： y( 4 〉= ( + 1,-1,+ 1) 

)(27〉= ( + 1^-1, + !) 3,(15) = ( + !, + !,-1) ys) = (-i ) + i ) + i) 

严 ) = ( + i,-i j + 1 ) 3,(14) = ( + 1) _ 1> + 1 ) y 2 ) = ( + -i ) + i) 

)(25) = ( + !, + !, -1) y U 3) = ( + lf - lt + 1 ) + ^ + 

y 24) -( + l ,- l , + l ) y i2) = (- l , + l , + l ) y (0) = ( 1 , 0 , 0 ) 

3 / 23 ) = ( + i , - i , + 1 ) / I ) = ( + l , + l ,- l ) 

8. [23] 证明当 S = 7 和了 = 4 时 ，（8) 是向后读合并的一种最优方式，那些避免一路合并的所 
有方法均比它差。 

9 . [ M 22 ] 证明下限(9)。 

10 . [ 41 ] 利用一台计算机，编制 K T U ) 的准确值的表。 

► 11. [20] 真或假 ：对于 只使用： T -1 路合并的任何向后读合并型式，在每条磁带上只能有交 
替的 ADAD … 的路段，如果两个相邻的路段以相同次序出现，则无法继续工作。 

12. [ 22 ] 证明 , Karp 的先序构造将总是产生一个满足条件 a )， b ) 和 c ) 的磁带标号的树。 

13. [26] 通过撤消尽可能多的一路合并，使得先序仍然给出内部节点的一个正确标号，从而 
使 （12) 更为有效。 

14. [ 40 ] 试设计一个算法，它进行先序合并，而无须明显地表示在步骤 P 2 和 P 3 '中的树，要求 
此算法仅仅用 O ( logS ) 个内存单元来控制合并型式。 
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15 .[ M 39 ] 正文中的 Karp 先序构造，产生在若干终端节点处具有一路合并的树。证明当 T 
二3时，有可能构造接近最优的 3- Hfo 树，其中自始至终使用两路合并。 

换言之，设 K T ( n ) 是所有的具有 n 个外部节点，且使得每个内部节点的次数为丁 _ 1的 

丁 - lifo 树的极小外部路径长度，证明： it 3 ( n ) = nlgn + O ( n )。 

16 . [ M 46 ] 使用习题15的符号，当 n = l (modulo : T _ 2) 时，是否对于 所有的 T > 3 f R T ( n ) 

= n logT - 1 n + 0( n ) ? 

► 17. [28 ] (Richard D . Pratt ) 为了在向后读级联合并中实现递增次序，我们可坚 持偶数 次的合 

并扫描 次数； 这提示了有些不同于算法 5.4.3 C 的初始分布技术。 

a ) 改变 5.4. 3-(1)，使得它仅仅示出要求偶数次合并扫描的完全分布。 

b ) 试设计一初始分布方案，它内插于这些完全分布之间（于是，如果初始路段数落在几个完全 
分布之间，则希望两次合并某些路段，但不是所有的路段，以便达到一个完全的分布）。 

► 18. [ A /3 S ] 假设对于某个了>3,有了个磁带机可利用，而且 T 1 含 N 个记录而其余的磁带 
为空。问是否有可能在少于 D ( iV [ ogi \0 步内颠倒 T 1 上记录的顺序，而无须向后读（当然，如果允 
许向后读，则操作是显然的）？对于要求阶为 NlogN 步的这样一类箅法，请参见习题 5.2.5-1 4 。 

习题——第二组 


下列习题发展了向前读带的磁带合并 理论； 在这种情况下，每条磁带起一个队列的作用，而 
不是一个栈的作用。一个合并型式可以完全像正文中那样，表示成向量 _ y u) …:/”:/⑴的一个序 
列。但当我们把向量表示转换为一个树表示时，我们把“最后形成，首先生长”改为“首先形成，首 
先生长”，于是非法的形状 (4) 将改变为 


(p 

和 

0 

A 

或 

o 

A 

© 

和 A 

(D 

© 


□ 

© 


(O 


类似于向后读情况下的术语 “了 - Hfo ”， 可以被标号，以便表示在丁条磁带上的向前读合并的 


一株树，称为 T - fifo ( T - 先进先出）。 

当磁带可以向后读时，它们形成非常好的栈。但不幸的是，它们并不形成非常好的通用的队 
列。如果以先进先出的方式，随机地写和读，则我们将浪费大量的时间把磁带移来移去。甚至更 
坏的是，可能会“跑出”磁带的末尾！我们会遇到与 2.2.2-(4) 和 （5) 中队列超出内存同样的问题, 
但是 2.2.2-(6) 和 (7) 中的解不能应用到磁带上，因为它们并不是圆形的循环。因此，如果我们可 
以对一株树加以标号，使得它对应的合并型式使每条磁带都遵循特殊的排队规则“写，重绕，读所 
有的记录， 重绕； 写，重绕，读所有的记录，重绕，等等”，则称这株树为强 了 - Wo 的。 

► 19. [22] ( R . M . Karp ) 试求一株不是 3- fifo 的二叉树。 

► 20. [22] 利用类似于 （40 的关于非法的磁带标号形状的相当简单的规则，建立“强了 - fifo ” 的 


条件。 

21. [1 S ] 画出习题7中用向量定义的向前读合并型式的树表示，这株树是强 3 -fifo 的吗？ 

22 . [28 ] ( R . M . Karp ) 证明具有完全分布的多阶段和级联合并的树表示，除了标示内部节点 
的诸数外,对向后读及向前读两者的情况完全一样。试求更大一类合并型式的向量表示，对于它 
来说，上述条件为真。 

23. [24] ( R . M . Karp ) 如果没有随后用作输入带的输出带，即 ：如果 不存在 i 使> 
，:= - 1和 = + 1 ，贝！ ] 我们称一个合并型式的：段为一节 （ stage )。 本题的目 
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的是证明，对有相同磁带数和初始路段数的所有合并型式，级联合并使数最小。 

为叙述方便，我们先定义一些符号。如果 I ；和 w 是了 向量，使得存在一个合并型式，它在它 

的第一节把 w 约化为 W ， 则写之为(于是存在 一 个合并型式 ： y 


( m) 


…： y 


( 0 > 


使得 : y 


( m ) 


…： y 


(/ + 1 ) 


为 


一节，加 = ： V (7W ) +…+3；⑻且 1 =) ⑺+…+ 3 ;⑻）。如果^；和災 是了 向量，使得对于1<6< 丁， t 

的最大 A 个元素之和 的最大 A 个元素之和，则写之为例如，（2，1，2,2,2，1)<(1,2,3, 

0,3,1)，因为2<3,2 + 2<3 + 3，"-,2 + 2 + 2 + 2+1 + 1<3 + 3 + 2+1 + 1 + 0 0 最后，如果 v =( v ly 


…，外），则令 C ( r ；) = (5 T ,5 T — 2 ， s T _ 3 ，…，巧，0)，其中 5 A 是幻的最大々个元素之和。 

a ) 证明 v — C ( v ) 。 


b ) 证明蕴涵着 C ( T ；) SCU )。 

c ) 假定习题24的结果，证明级联合并使节的数目取极小。 

24. [ M 3 5 ] 使用习题23的符号，证明蕴涵着 wz ^ C (* jy )。 

25 . [ M 36 ] ( R . M . Karp ) 如果没有既用作输入也用作输出的磁带， gp ，如果不存在 iA ，使 

且3^_)= +1 和 #)= -1，则我们称合并型式的一个 y U ) … ：/”) 段是为一个 

阶段 ( phase )。 本题的目的是研究使阶段数极小化的合并型式。如果在一个阶段中 m 可以被约 
化为 I ；(习题23中引进了类似符号），则写之为 v $ w 。 我们设 

iv ) — + ^ k+l * ^ 匕+2,…，\ + 广下，。，…，。） 

其中 r , 表示 Z ； 的第 j 个最大的元素，且4 = ^ +…+心。 

a ) 证明对于1<々< T y v ^ D k ( v ) c 

b ) 证明对于1<々< 丁，蕴涵着 

c ) 证明对于某个 A ，1<6< 蕴涵着 

d ) 因此，在^个阶段和: r 条磁带的情况下，能使被排序的初始路段数达到极大的一个合并型 
式，可以通过一个整数序列 k \ k 2 … k q 表示，使得初始分布是 (-'( D k ( D k ( w ))) …），其中 m = 

Q 2 1 

(1,0,-，0)。这个极小阶段策略，有一个强 T - fifo 表示，而且它也属于习题22中型式的类型。当 
了 = 3时，它就是 多阶段 合并。而对于 了 = 4,5,6,7,它是平衡合并的一种变种。 

26. [ M 46] ( R . M . Karp ) 对于所有： T >4 和所有充分大的习题25中提到的最优序列 
k \ kyk q 总是等于 1「 T /2 llT /2 jrT 721 LT /2」 …吗？ 


"5.4.5 振荡排序 


Sheldon Sobel 在 [ACM 9 ( 1962 )，372〜375中提出了一个与合并排序稍微不同 
的方法。这个方法不是以把所有初始路段分散到磁带的一个分布扫描开始，而是在 
分布和合并之间前后振荡，使得在对输入进行完备地考察之前，许多排序都可进行。 

例如，假设有5条磁带可供合并时利用， Sobel 方法将16个初始路段排序 如下： 



操作 

T 1 

T 2 

T 3 

T 4 

T 5 

代价 

阶段1 

分布 

A 

Ai 

A , 

A x 


4 

阶段2 

合并 





d 4 

4 

阶段3 

分布 

— 



A x 

D 4 Ai 

4 

阶段4 

合并 

D 4 

— 

— 

— 

D 4 

4 

阶段5 

分布 

D 4 A 1 

— 


Ai 

D 4 Ai 

4 

阶段6 

合并 

D 4 

d 4 

—— 

— 

d 4 

4 
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阶段7 
阶段8 

分布 D 4 Ay 

合并 d 4 

D 4 Ai 

d 4 

D 4 

D 4 Aj 

- d 4 

4 

4 

阶段9 

合并 - 

— — 

— 

^16 — 

16 


此处同 5.4.4 小节中一样，使用皋和认分别代表相对长度为 r 的递增和递降路 

段。本方法开始在4条磁带上各写一个初始路段，并且把它们（向后读）合并到第5 
条磁带上。分布再次继续，这次磁带循环地向右移一个位置，而第二个合并产生另 
一 个路段 D 4 。 在以这种方式形成4个0 4 后 ，一 个附加的合并建立 A 16 。 我们可以 

继续建立另3个 A 16 ，把它们合并成一个 D 64 。 如此类推直到穷尽输入为止。预先 

不必知道输入的长度。 

当初始路段的个数 S 为 4 m 时，不难看出这个方法恰处理每个记录 m + 1 次: 
在分布期间1次和在合并期间 m 次。当 S 处于 f 1 和4%之间时，我们可以假定 
存在虚拟路段，把 S 提升为4、因此总共的排序时间实际上将等于对于所有的数据 
进行 「 bg 4 Sl + l 次扫描。这恰是通过对8 条磁带 的一个平衡排序所达 到的； 一般地 

说，使用 T 条工作磁带的交替排序等价于使用 2( T -1) 条磁带的平衡的合并，因为 
它进行对数据的「1087-41 +1次扫描。当 S 是: T -1 的一个乘方时，这是任何 T - 

磁带方法所能达到的最好效果，因为它达到等式 5.4.4-(9) 中的下限。另一方面，当 
S 是 （ T - ir M + l 时，即恰巧比 T -1 的一个乘方大1时，这个方法几乎浪费整个 
一趟扫描。 

习题2示出，如何通过使用一个特殊的结尾例程，以部分消除对于非完整乘方 
的 S 的损失。1966年 ,Dennes L . Bencher 做了进一^步的改进，他称他的过程为“交 
叉合并”[见 H. Wedekind , Datenorganisation ( Berlin : W. de Gruyter , 1970), 164 〜 

166 ； U . S . Patent 3540000(1970)]。 主要的思想是延迟合并直到获得关于 S 的更多 
的知识为止。我们将讨论对 Bencher 创立的方案稍做修改后的形式。 

这个改进的交替排序进行 如下： 



操作 

T1 

1 

T2 

T3 

T4 

T5 

代价 

阶段 i 

分布 



Ai 

A! 

-Ai 

4 

阶段 2 

分布 


A 

Ai Ai 


A,Ai 

3 

阶段 3 

合并 

d 4 



Ai 

Ai 

4 

阶段 4 

分布 

D 4 A 1 


A ： 

AA 

Ai Ai 

3 

阶段 5 

合并 

D, 

d 4 


^1 

A 

4 

阶段 6 

分布 

D 4 A 1 

D 4 A 1 



Ai Ai 

3 

阶段 7 

合并 

d 4 

d 4 

d 4 


Ai 

4 

阶段 8 

分布 

D 4 A 1 

D 4 A 1 

D 4 Ai 


Ai 

3 

阶段 9 

合并 

d 4 

d 4 

D 4 

d 4 


4 


这时我们不把 D 4 合并到 A 16 中（除非输入恰好将要穷尽），仅仅在实施 

阶段 15 合并 D 4 D 4 D 4 D 4 D4D4 D 4 — 4 
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之后，我们将得到 

阶段 16 合并 D 4 D 4 D 4 — A 16 16 

在再生成3个 D 4 之后，将出现第二个 A 16 

阶段22 合并 D 4 D 4 D 4 D 4 D 4 — A l6 D 4 4 

阶段23 合并 D 4 D 4 — A 16 A 16 16 

等等(参见阶段1〜5)。可以看岀 Bencher 方案的优点，例如，如果仅有5个初始阶 
段，则在习题2中修改过的振荡排序将进行四路合并（在阶段2)，紧接着做一个二路 
合并，总共代价为4 + 4 + 1 + 5 = 14。而 Bencher 方案则做一个二路合并(在阶段 3) ， 
紧接着做一个四路合并，总共代价为4+1+2 + 5 = 12( 两个方法都含一个小的附加 
代价，即在最后的合并之前有1个单位的重绕）。 

以下的算法 B 中有 Bencher 方法的一个精确描述。可惜的是，它似乎是一个比 
代码更难以理解的过程。向一台计算机说明这项技术，比之于向一位计算机学家说 
明更容易！部分原因是由于它是一个递归方法，已经表达成迭代的形式，且进行了 
一定的 优化; 读者可以发现，要真正了解它，有必要跟踪整个算法若干次。 



算法 B (具 有交叉分布的振荡排序） 这个算法取初始路段并把它们分散到磁 
带上，偶尔中断分布过程以便合并某些磁带的内容。这个算法使用 f 路合并，并假 
定有了 =P + 1>3 台磁带机可利用（用于保持输人数据的磁带机 不计在内）。 这些磁 
带机必须允许以向前和向后来进行读人，而且以数0，1，…， p 标记。下列项是必需 
的： 

D [ j ], 0 < j ^ P 假设出现在磁带 j 末端的虚拟路段号。 

0< Z < L ,0< j < P 这里 L 是使得至多有 # + 1 个初始路段被输人的 
一个数。当 A [ Z ， j ] = 々>0 时，名义上长度为户的一个路段出现在磁带 j 上，这对 
应于算法操作的“级 r 。 如果& 为偶，这个路段是递 增的；如果& 为奇，则是递降 
的。当 A [ Z ， j ]<0 时，级 z 不使用磁带 j 。 

“写一初始路段到磁带 ； 上”这一语句，为下列操作的 简述： 

置 A [ Z ， j ]— 0。如果输入已穷尽，则 D [ j ] 增1;否则在磁带 j 上写一初始路段 
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(以递增的次序）。 

“合并到磁带 J 上”这一语句为下列操作的简述： 

如果对于所有，0[纟]>0，则对所有1且 D [ j ] 加1。否则从所 
有使 D [ i ]=0 的磁带取一个路段合并到磁带 j 上，而且对于所有其它 f 关 

hDN ] 减 1。 

B 1. [初始化]对于，置 D[j ]— 0。置 A [0,0]^ —1，/— 0,(7— 0。然后 

对于写一个初始路段到磁带 J /上。 

B 2 .[输人完成？](这时磁带 g 为空，而且其它磁带至多每条包含一个路段）如 

果还有输入，则进行步骤 B 3。 但如果输人已穷尽，则重绕所有使得 A [0， j ] 
为偶的磁带 j 然后在刚才重绕的磁带上向前读，而在其它的磁带上向 
后读，以此方式合并到磁带 g 。 这就完成了排序，且按递增次序排列的输 
出就在磁带 g 上。 

B 3. [开始新的级 ]置 1 — 1 + 1， r — q ， 0且 q—(q + 1 ) mod 丁。对于 

丁-2,各写一初始路段到磁带 U + ; )mod 了上（于是在除磁带 g 和 r 之外 
的每条磁带上，各写 一 个初始路段）。置 — 1和 A [/， r ]^ — 2。 

B 4 .[准备好合并了吗？]如果 A [ / 则转回步骤 B 3。 

B 5 •[合并](这时对所有的关 r ， A[Z - l ， g ] = A [/， j ] = s ) 合并到磁带 

r ,并向后读（见上述此操作的定义）。然后置 s—s + 1, - 1, A [ / , r ]^~ 
s 以及 A [ I , q ]^* 1。置 r —(2 q _ r ) mod T ( — 般说来，当 s 为偶时我们有 r 

= ( ^ - 1 ) mod 丁，当 s 为奇时 r 二（<7十 1) mod T ) 0 

B 6 •[本级完成了吗？]如果/ = 0,则转到 B 2。 否则如果对于所有 j 关 g 和 

r ， A [ Z , j ] = 则转到 B 4。 否则返回 B 3。 | 

我们可以使用一个“递归归纳法”风格的证明来证明这个算法是正确的，正如对 
算法 2.3.1 T 所做的那样。假设我们以 L = h ， q 二 q 0 ， s + = A[/ 0 ,(^o + l)mod T ], 

以及= A [ Z 0 ,(go l)mod 了]开始步骤 B 3; 并进而假设 s + = 0,或5_ =1，或5 + 

= 2,或=3,或……。用归纳法能够验证这个算法最终将达到 B 5 而无须改变 A 

的第0到第 Z 0诸行，而且 I = Iq > 十 1，9二90 士 l ， r =< 7 o 及 s = 5 十或5 _，这里如果 s + 
二0或 (5+ 二2或5_尹1)或 （5+ = 4和尹1，3)或 时，我们选择正号十，而如果 

(5_=1和或 （ s _=3 和 5 + 尹0,2)或……时，我们选择负号_。这里简述的 

证明并不是最好的，因为这个算法本身就是以一种适合于实现而不是验证的方式来 
陈述的。 

图78借助于每个记录作为初始路段数 S 的函数被合并的平均次数，示出了算 
法 B 的效率，其中假定初始路段都近似地等长（对于多阶段和级联排序，对应的图出 
现于图70和图74中）。在制作这张图时，已经使用了习题3中提到的一点改进。 

基于我们在 5.4. 4小节中讨论的先序合并理论， R . M . Karp 建立了称做 回旋排 

序 （gyrating sort ) 的 一 个相关方法；参见由 Randall Rustin 编著的 CombinatoWa / Algo - 
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0 / I I ' . .. II I I Mill _ II I I 11111_ I III 

1 2 5 10 20 50 100 200 500 1000 2000 5000 

初始路段，5 

图78交替排序的效率，其中使用了算法 B 和习题3的技术 

条件 a ) 违背了我们已经假定的、作为向前读特征的 “-六 / b ” 性质，但是只要在路 
段之间保留有充分数量的空白磁带而且在适当的时候忽略“奇偶错”的话，则这仍能 
可靠地实现。条件 b ) 同有效地使用替代选择看来不大相容。 

作为一个算法，而不是一个物理设备来获得专利的最早算法之一 [ L 7. S . Patent 
33 S 0029(1%8)]， Goetz 的向前读振荡排序有稍微含糊的 特性； 除非成功地争辩，否 

则如果没有获得专利人的同意，这样一个专利就使得在一个程序中使用这个算法是 
非法的。几年后， IBM 支持 Bencher 的向后读振荡排序技术申请为专利[唉，现在我 
们只能说，发现一个算法的兴奋就足以令人满意，已经成了一个终结！所幸的是，振 
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rithms (Algorithmics Press ，1972) ,21 〜 29 0 

向前读振荡排序型式看来要求向后读的能力，因为我们在合并新近输入的短 
路段时，也需要在某处存入长路段。然而， M . A . Goetz [ Proc . AFIPS Spring Joint . 
Comp . Conf . 25(1964)，599 〜 607] 发现了一个仅仅使用向前读和简单的重绕，就能 
实现振荡排序的方法。他的方法同这一章中我们已经见到过的其它方案，在以下两 
方面有根本的 不同： 

a ) 数据有时写在磁带的前端，同时知道在磁带中间的现存数据未被破坏。 

b ) 所有的初始字符串都有一固定的极大长度。 



毅釔 S 士聰： R 汰 <n 
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荡排序并非特别好。我们希望，发明最好算法的有公益心的人们，继续使他们的思 
想免费让人们使用。当然，那些把新技术完全保密的人，比起把算法的出现作为一 

个时间段内的个人财产者还要差得 多]。 

Goetz 方法的中心思想，是把事情安排成使得每条磁带以相对长度为1的一个 

路段幵始，紧接着是相对长度为 P 的，然后相对长度为 P 2 的，等等。例如，当 T = 5 

时，排序开始如下（利用指出在每条磁带上当前读写头的位置）： 


操作 

T1 

T2 

T3 

T4 

T5 

代价 

注释 

阶段 1 分布 

. Ai 


- Ai 

.Ai 

^1 - 

5 

[T5 尚未重绕 ] 

阶段 2 合并 

Ai • 

A. 

V 

A. 

Ai A 4 

4 

[ 现在全都重绕 ] 

阶段 3 分布 


. Ai 

• Ai 

A t . 


4 

[T4 尚未重绕 ] 

阶段 4 合并 




1 4 . 

♦ A 4 

4 

[ 现在全都重绕 ] 

阶段 5 分布 

■ 

■Ai 


. A i 4 . 

- A i A 4 

4 

[T3 尚未重绕 ] 

阶段 6 合并 


Ai. 

A [ 4 . 

Ai • A 4 

Ai • A 4 

4 

[ 现在全都重绕 ] 

阶段 7 分布 

• Ai 

Ai. 

■ 1 A 4 

. .A i -A 4 


4 

[T2 尚未重绕 ] 

阶段 8 合并 



Ai • A 4 


Ai. A 4 

4 

[ 现在全都重绕 ] 

阶段 9 分布 

A! ■ 

. A j A 4 

. A i 

♦ A 1 A 4 


4 

[T1 尚未重绕 ] 

阶段 10 合并 


■ A 4 

Ai • A 4 

Ai • A 4 

Ai ■ A 4 

4 

[不重绕] 

阶段 11 合并 



^ 1^.4 - 



16 

[现在全都重绕] 


等等。在阶段1，当 T 2 接受它的输入时， T 1 正被重绕，然后当 T 3 接受它的输入时， 
T 2 正被重绕，等等。最后，当输入穷尽时，虚拟路段将开始出现，有时有必要相像成 
它们已经以全长明显地写到磁带上。例如，如果 S = 18, 则在磁带 T 4 和 T 5 上的诸 
在阶段9期间都将是虚 拟的； 当阶段10从 T 2 到 T 3 合并到 T 1 时，在 T 4 和 T 5 

上，我们将向前跳，因为我们必须转到 T 4 和 T 5 上的 A 4 那里，以便为阶段11做准 

备。另一方面, T 1 上的虚拟路段 Ai 则不必明显地出现。因此，这个“压轴戏”有一 

点技巧。 

下一节有此方法的另一个例子。 


习题 

1. [22]正文中说明了 对于了 = 5和 S = 16的 Sobel 的最初的振荡排序。试给出一个算法的精确描 
述，该算法推广这个过程，对 T=P + \>3 磁带上的 S = 〆 个初始路段进行排序，并力求简单。 

2. [24] 在 Sobel 原先的方法中，如果5 = 6,则我们可以假设 S = 16并假设存在11个虚拟路 
段。这样在正文的例子中，阶段3将置虚拟路段 Aq 到 T 4 和 T 5 上，阶段4将把 T 2 和 T 3 上的 Ai 

合并为 T1 上的一个 D 2 d 阶段5 〜 8将不做 什么； 而阶段9将在 T 4 上产生 A 6 。 更好的是在阶段 

3之后，就重绕 T 2 和 T3 , 然后通过三路合并立即在 T 4 上产生焱 6 。 

说明怎样来修改习题1的箅法，使得当 S 不是 P 的完全乘方时，可得到与此类似的一个改进 
了的结果。 
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► 3. [29] 假定有 9 个初始路段，编制一张说明： T = 3 时算法 B 之特性的图表。证明这个过程 
有一处显然是低效的，然后对算法 B 进行修正，以弥补这一情况。 

4. [21]步骤 B 3 置 A [/， g ] 和为负的值。说明这两个情况之一总是多余的，因为对应 
的 A 表中的项是决不会被査找的。 

5. [ M 25] 设 S 是出现在算法 B 的输人中的初始路段数， S 的哪些值使得在步骤 B 2 中不需 
要重绕？ 


5.4.6 关于磁带合并的实际考虑 

麻烦的事情现在来了 ：至今我们已经讨论了各类合并型式，现在来看看它们如 
何真正地应用于计算机和磁带的实际配置，并且以有意义的方式来对它们进行比 
较。对于内部排序的研究表明，仅仅通过计算它执行的比较的数目，还不能适当地 
判断一个排序方法的 效率； 类似地，也不能仅仅通过知道它对于数据扫描的次数，就 
适当地评价一个外部排序方法。 

在这一节里，将讨论典型磁带机的特征，及其对初始分布和合并的影响。特别 
是，我们将研究缓冲区分配的某些方案，及其对于运行时间的相应影响。我们也将 
简单地考 虑排序生成器 程序的构造。 

磁带如何工作 不同厂家所提供磁带机的特征有很大不同。为方便起见，我们 

将定义一个假想的 MIXT 磁带机，在编写本书时，对于正被制造的设备来说，它是相 
当典型的。 

MIXT 以 75 in / s 的速度，读和写每英寸的800个字符。这意味着，当磁带活动时， 
每 l /60 ms ， 或16 fp ， 读或写一个字符。在1970年可以买到的实际的磁带机，其密 

度为每英寸200个字符到1600个字符，而其速度是从37 jin / s 到 150 in / s ， 因此它 
们的有效速度是 MIXT 的1/8倍到4倍。 

当然，在 5.4 节接近开始的地方我们就已经注意到 ，一 般地说，磁带现在是非常 
过时了。但是在磁带排序曾经非常重要的那数十年间，我们曾经上了许多课，今天 
这些课仍然是有价值的。因此，在这里我们主要关心的并不是一些特定的答案，而 
是学习如何以合理的方式来把理论同实践结合起来。方法学要比现象学重要得多， 
因为不管技术如何变化，问题求解的原理都一直有用。如果读者暂时地把他们自己 
移植到 20 世纪 70 年代的思维方式中，那他们将会从这部分内容获得最大裨益。因 

此让我们假定我们仍然生活在那消逝了的年代吧！ 

以当时的观点来看，须要记住的重要事实之一就是，磁带有一个严格限定的容 
量。每卷磁带的长不超过2400 英尺； 因此，每一 MIXT 磁带卷至多可以容纳 
23 000 000个字符左右，而读完全部这些字符要花费23 000 000/3 600 000〜 
6.4 min 。 如果必须对更大的文件排序，一般说来最好一次对一整卷进行排序，而后再 
把排好序的卷合并，以避免多余的磁带操作。这意味着，我们所研究过的实际出现 
在合并型式中的初始路段的个数 S ， 不可能是很大的。我们不可能找到 S >5000, 即 
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0 1000 2000 3000 4000 5000 

每块字符数 

图80作为块大小的函数，每卷 MIXT 磁带的字符数 

许多“旧式的”计算机只都有相当小的固定的块大小。如第一章中所定义的那 
样，它们的设计被反映在 MIX 计算机中， MIX 计算机总是读和写100字的块。这意味 
着每块大约500个字符，由于每个间隔为480个字符，因此几乎浪费一半的磁带! 
20世纪70年代的大多数机器都允许块的大小可变，所以下面我们将讨论选择适当 
块大小的问题。 

在一个读或写操作末了，磁带机以全速“滑过”间隔的头66个（左右的）字符。 
如果在这期间开始对同一条磁带做下一个操作，则磁带的运动无中断地继续下去。 
但如果下一个操作不能相当快地到来，则这条磁带将停止，而且它也需要一些时间 
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使对于一个非常小的只产生5000个字符长的初始路段的内存也是如此。因此给岀 
当 S — 〜时算法的渐近有效性公式主要是在学术上有意义。 

数据以块 （ block ) 出现在磁带上（见图79)，每个读/写指令传送一个块。块通常 
称为“记录”，但我们将避免使用这一术语，因为它同“对一个由‘记录’组成的文件排 
序”中的“记录”一词相冲突。在50年代所写的早期的许多排序程序中，这种区分是 
没有必要的，因为每个块写一个 记录; 但是我们将看到，在磁带上的每个块内多放几 
个记录通常是有利的。 



图79有可变大小的块的磁带 

在相邻的块之间有一个480个字符位置长的块 间间隔 ，为的是允许磁带在个别 
的读或写指令之间停止和启动。块间隔使得每卷磁带的字符数减少，其多少与每块 
的字符数相关（见图 80); 同样，每秒传输的平均字符数也减少了，因为磁带是以相 
当固定的速度移动的。 
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1 2 3 4 5 6 7 

由 Jr - 个操作的完成到磁带控制器下一指令的时间 ( ms ) 


现在我们考虑重绕操作。可惜，对于给定的字符数 n ， 一 般难于表征重绕所需 
的确切时间。在某些机器上，有一个高速的重绕，它仅当72大于5百万左右时才可 
以 应用； 对于较小的 n 值，重绕则以通常的读/写速度进行。在其它机器上，有一个 
特殊的发动机用来控制所有的重绕 操作； 它逐渐地加快磁带卷达到每分钟某一转 
速，然后当其停止时即自动刹车。而实际的磁带速对于全卷都在 变化。 为了简便起 
见，我们将假定 MIXT 需要 max (30, 72/150)11^重绕^2个字符位置（包括间隔在内）, 

此即写它们所花时间的大约3/50这是对于许多实际磁带机行为的相当好的近似， 
在实际的磁带机中，读写时间同重绕时间之比一般都在2和3之间，但是这还未充 
分地模拟出在许多其它机器上出现的综合的低速和高速重绕的效果（见图 82 )o 


图81怎样计算停止/启动延迟时间 
(加到用于读或写块及间隔的时间上) 


来加速到全速以进行下一个操作。停启时间的延迟加在一起为 5 ms , 停止 2 ms 和启 
动 3 ms (见图81)。因此，如果我们错过了继续全速读的机会，则对运行时间的影响 
实质上和在块间隔中有780个字符(而不是480个字符)是一样的。 



0 5 000 000 15 000 000 23 000 000 

从装入点开始的字符数 
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图82两个通常使用的重绕技术的近似运行时间 
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初始的装磁带和/或重绕都把一条磁带定位在“装入点”处，而在装入点处开始 
的任何读或写操作都需要额外的 110 ms 的时间。当这条磁带不在装入点处时，可以 
向 后读; 在一个向前的操作之后的任何向后操作，或者在一个向后操作之后的任何 
向前操作，都需附加 32 ms 的时间。 

再论合并现在让我们再次考察 P 路合并的过程，同时着重于考察输入和输 
出的活动，并假定 P + 1 台磁带机正在用于输入文件和输出文件。我们的目标是使 
输入/输出操作尽可能多地彼此重叠以及同程序的计算重叠，以使整个合并时间极 
小化。 

考虑下列特殊情况是有 益的： 在这种情况下，对于可能的同时性设置了严格的 
限制。假设 

a ) 在任何一个时刻，至多一条磁带可写。 

b ) 在任何一个时刻，至多一条磁带可读。 

c ) 仅当读和写操作同时被启动后，读、写和计算可同时进行。 

结果，尽管加上了这3个条件， 2 P 个输入缓冲区和2个输出缓冲区的一个系统，就 
足以使磁带保持它实际上最快的速度来运行，除非计算机非常之慢。注意 a ) 实际上 
不是一个限制，因为仅有一条输出磁带。其次，输入的数量等于输出的数量，所以平 
均说来，在任何给定的时刻仅有一条磁带正 在读； 如果条件 b ) 不满足，则必定有一 
段时间没有输入。于是，如果我们保持输出磁带忙碌，则就能使合并的时间极小化。 

一项称为预报 ( forecasting ) 的重要技术给了我们所希望的效果。在我们正在进 
行一个 P 路合并的同时，一般地有 P 个当前的输入缓冲区，它们被用作数 据源； 其 
中的某些比其余的更满些，这依赖于它们的数据已有多少被扫描。如果大约在同一 
时间它们全都变空了，则在可以往下进行之前，将需要大量地读，除非我们事先已经 
预见到这个意外事件。幸而，通过简单地考察每个缓冲区中的最后一个记录，总有 
可能知道哪个缓冲区将首先变空。最后记录有最小关键字的缓冲区将总是头一个 
变空，不管任何其它键码的值是什么。所以我们总是知道哪一个文件将是下一条输 
入指令的源文件。下列算法详细地叙述了这个原理。 

算法 F (浮动缓冲区的预报）本算法在 P >2 时控制长输入文件的 P 路合并 
期间的缓冲区安排。假定输入磁带和文件编号为1，2,…， P 。 这个算法使用 2 P 个 
输入缓冲区1[1]，…， I [2 P ] ; 两个输出缓冲区0[0]和0[1],以及下列辅助列 表项: 

A [ 如果 I [ j ] 可用作输入则为0,否则为1; 

包含迄今从文件 z 读入的最后块的缓 冲区； 

c [ i ], l < f < P ： 当前用来存放来自文件 i 的输入的缓 冲区； 

迄今从文件 i 读入的最后一个关 键字； 

s [；], K ；<2 P ： 当 i [ ; ] 变为空时使用的缓冲区。 

这里描述的算法并不终止，终止它的适当方式在以下讨论。 

F 1. [初始化]对于从磁带 f 读第一个块到缓冲区 I [ i ], 置1， 

A[p + z ]<-0, B [ i ] — i ， C [ i i ，并置 L [ i ] 为在缓冲区 l [ 2 ] 中最后一个记 
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录的键码，然后找 m 使得 L [ m ] = min | L ( l ),**-, L ( P )| ;并置 0，々 —P 
+ 1，开始从磁带 m 读到缓冲区工[々]。 

F 2 •[合并]合并来自缓冲区工 [ C [ l ]], …，工 [ C [ P ]] 的记录到0[(],直到0[〖]满 

了为止。如果在这过程期间一个输人缓冲区，比如说 I [ C [ i ]] 变空而0[^] 
仍未满，则置 A [ C [ f ]]—0, C [ f ]— S [ C [ i ]], 并继续合并。 

F 3 •[完成输人/输出]等候直到以前的读（或读/写）操作完成。然后置 — 

， B[w ]— 々，并置 L[w ] 成为工[々]中最后记录的键码。 

F 4 •[预报]求 w 使得 L [ m ]= min | L [ l ], …， L [ P ]| ，并求々使得 A [々]=0。 

F 5 •[读/写]开始从磁带 w 读到缓冲区 IU ]， 并从缓冲区0[〖]写到输出磁带， 

然后置1 _ i 并返回到 F 2。 ■ 



图83浮动缓冲区的预报 

假定磁带上的每个块仅含两个记录，图84的例子示岀当 P = 2 时，预报是如何 
进行的。所示的是每次我们达到步骤 F 2 的开始处时输人缓冲区的内容，算法 F 实 
际上形成 P 个缓冲区队列 ，而以 C [ i ] 指向第 i 个队列的前头， B [ f ] 则指向队列尾。 
同时, S [ j ] 指向缓冲区 I [ j ] 的 后继； 这些指针如图84中的箭头所示，第1行说明了 
初始化之后的 状态: 对于每个输人文件有一个缓冲区，而另一个块正从文件1读入 
( 因为03 <05)。第2行所示为在合并了第一个块之后的状态：我们正在输出包含 

“01 02”的一个块，并正在从文件2输人下一个块（因为05<09)。注意，在第3 

行,4个缓冲区中的3个实际上都被文件2占用，因为我们正从该文件读，而且在它 

的队例中已经有一个满缓冲区和一个部分满缓冲区。这种“浮动缓冲区”的安排是 

算法 F 的一个重要特性，因为如果选择文件1而不是文件2作为第3行的输人，那 
么我们就会无法进行到第4行。 

为了证明算法 F 是正确的，必须证明 两点： 

i ) 总存在一个输人缓冲区可以利用（即在步骤 F 4 中总能找到一个是）。 
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文件1包含 

01 03 

04 09 

11 13 

16 18 

4 k ■ 







文件2包含 

02 05 

06 07 

08 10 

12 14 

蠱蠱 _ 


行号 

1 

2 

3 

4 

5 

6 
7 


文件1的缓冲区 文件2的缓冲区 



下一个输入由 
何处读入 

文件1 
文件2 
文件2 
文件1 
文件2 
文件1 
文件2 


图84按照算法 F 的缓冲区队列 

ii ) 如果在合并时一个输入缓冲区被穷尽，则它的后继者已经出现在内存中（即 
在步骤 F 2 中的 S [ C [ i ]] 是有意义的）。 

假设 i ) 为假，于是在我们到达步骤 F 4 的某个时刻所有缓冲区都不能利用。每 
次到达该步骤时，在所有缓冲区中未处理的数据总数量恰恰是 P 个缓冲负载， gp 如 
果重新分布这些数据，则它们恰好足够填满 P 个缓冲区，因为我们正在以相同的速 
度输入和输出数据。某些缓冲区仅仅是部分地 满了； 但对于每个文件，至多有一个 
缓冲区是部分地满的，所以至多有 P 个缓冲区是部分地满的。由假设，所有 2 P 个 
缓冲区都不可利用，所以其中至少有 P 个必须是完全满的。这仅当 P 个是满的和 
P 个是空的才会发生，否则我们将有太多的数据。但在任何一个时刻都至多只能有 
一个缓冲区是不可利用的和空的，因此 i ) 不能为假。 

假设 H ) 为假，于是我们在内存中没有对于某个文件的未处理的记录，但当前的 
输出缓冲区还不满。由预报原理，所有其它的文件不能有多于一个的数据块，因为 
在任何其它文件上的缓冲区都被穷尽以前，除非需要某个块时我们才读入该块。因 
此未处理的记录总共至多等于 P - 1 个块； 加上未填满的输出缓冲区，将导出的内 
存中的数据量少于 P 个缓冲负载，矛盾。 

这个论证确立了算法 F 的正确性，而且它也指出了出现病态情况的可能性，在 
这些病态情况下，本算法仅勉强地避免灾难。我们未曾提及的重要一点，即关于相 
等键码的可能性，在习题5中讨论。另外也请参见习题4,它讨论了 P = 1 的情况。 

如果刚刚读入的块是一个路段最后的块，则巧妙地结束算法 F 的一种方式，是 
在步骤 F 3 中置 L [ m ] 为^ (习惯上都以某种特殊的方式来指出一个路段的结束）。 
在读了所有文件上的所有数据之后，我们最终将发现在步骤 F 4 中所有的 L 都等于 
00 ;于是开始读每个文件上下一个路段的第一个块是可能的，并随着最后 P + 1个 
块的输出，开始下一个合并阶段的初始化。 
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因此我们能使输出磁带实际上以全速运行，而无须在同一时间读一条以上的磁 
带。步骤 F 1 中出现了这一规则的例外情形，这是为使所有东西都从开始处进行，所 
以一次读若干条磁带更有利。步骤 F 1 通常都可安排成同计算的以前部分重叠。 

考察每个块最后的记录，来预测哪一个缓冲区将首先变空的思想，是由 F . E . 
Holberton 于1953年发现的，而首先发表这项技术的则是 E . H . Friend [JACM 3 

(1956),144 〜145，165]。他的颇为复杂的算法使用 3 P 个输入缓冲区，每个输入文 
件专用3个缓冲区。算法 F 通过利用浮动缓冲区改善了这一点，允许任何一个文件 
一次要求多达 P + 1个输入缓冲区，但总数决不多于 2 P 个。在这一节的末尾讨论 
了使用少于 2 P 个输入缓冲区的合并。在 5.4.9 节讨论了对算法 F 的某些有趣的 
改进。 

合并型式的特性比较 现在让我们使用我们所掌握的关于磁带和合并的知识， 
来比较 5.4.2 小节到 5.4.5 小节中所研究的各种合并型式的有效性。当把每一种 
方法应用于相同的任务时，给出这些方法的细节是非常有益的。下面，我们就来考 
察一个文件的排序问题，该文件的每个记录包含100个字符，同时，内存中有 
100 000个字符位置可以用来存储数据——不考虑程序和它的辅助变量，或者在一 
个选择树中由链接所占用的空间（记住我们仍假定在内存容量很小的那个时代）。 
输入以随机次序出现在磁带上，每块有5 000个字符，而输出以同样的格式出现。 
除了包含输人磁带的磁带机外，还有5条“空白磁带”可用。 

有待排序的记录总数为100 000,但排序算法事先并不知道这个信息。 

图表 A 综述了把10个不同的合并方案应用到这批数据时发生的动作。考察这 
个重要图示的最好方式是想像你正在观看排序的进行：从左到右缓慢地扫描每行， 
假想你真正能看6条磁带的读、写、重绕和/或向后读，如同图中所指出的那样。在 
P 路合并期间，输入磁带被移动的次数仅仅是输出磁带移动次数的 IIP 。 当原来的 
输人磁带已经完全读入（又已重绕和“锁磁带”）时，图 A 假定一个熟练的计算机操作 
员仅在 30 s 内即卸下它并且以一条空白磁带代替。在例2,例3和例4中，这是计算 
机空闲地等候操作员工作的“关键通路时 间”； 但在余下的例子中，卸磁带和重装操 
作是同其它处理重叠的。 

例1向前读的平衡合并 让我们回顾这个问题的说明，记录的长度是100个 
字符，在每个时刻有足够的内存来保持1000个记录，而且在输人磁带上每个块包含 
5000个字符 (50 个记录）。全部共有100 000个记录 （ = 10 000 000字符= 2000个 

块) 。 

对于中间文件我们自由地选择块的大小，一个6磁带的平衡的合并使用三路合 
并，所以算法 F 的技术要求8个缓冲区，我们因此可以使用每个含1000/8= 125个 
记录 （ = 12 500个字符）的块。 

初始分布扫描可以利用替换选择（算法 5.4.1 R )， 而且为了保持磁带光滑地运 
行，我们可以使用每个有50个记录的两个输入缓冲区，加上每个有125个记录的两 
个输出缓冲区，这就在替换选择树中保留了 650个记录的空间。因此大多数初始路 
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段大约将有1300个记录长 （10 或11个块），结果在图表 A 中产生了 78个初始路 
段，最后一个要短些。 

上述第一趟合并扫描中有9个路段合并到磁带4,而不是在磁带4,磁带5和磁 
带6之间交替进行。这使得在计算机操作员装入一条空白磁带到第6台磁带机上 
的同时有可能来做有用的工作；因为一旦已经完成了初始分布就知道了路段的总 
数，这个算法知道 「 S /91 个路段应该被合并到磁带4,然后 「（S - 3)/91 个到磁带5,然 
后 「（ S -6)/91 个到磁带6。 

利用 5.4.2 小节引进的符号，对于这个例子的整个排序过程可以下列方式概括 


如下: 


26 


26 


26 


9 3 


9 3 


3 9 


3 9 


3 8 


9 2 6 1 


21 


27 


24 


78 


例2向前读多阶段合并 图表 A (见书末）中的第二个例子按照算法 5.4.2 D 
进行多阶段合并。在此情况下，我们进行五路合并，使得存储器分成为每个有83 / 
记录的12个缓冲区。在初始替换选择期间，我们有两个各50个记录的输入缓冲区 
和两个各83个记录的输出缓冲区，在树中保留734个 记录； 所以这次初始路段的长 
大约是1468个记录 （17 或18个块）。所示的状态表明得到 S = 70个初始路段，最 
后两个实际上分别仅有4个块和1个块长。合并型式可概括为 


13i 18 


0 


lh 17 


o 


13i 15 
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12il2 


o 8 i 8 


15 


i 7 

i 3 


12 


l 6 

l 2 


l 4 



34 


1649 1 

19 1 


8 4 

8 2 


4 8 

4 4 

4 2 

4 1 


oWs 3 

1 4 2 j 5 3 

2 1 5 3 

5 2 


70 


多奇怪，多阶段实际上比不甚复杂的平衡合并多花大约 25 s ! 关于此，主要有两 


个原因： 

1) 平衡合并在这种情况下特别走运，因为 S = 78 如此接近于3的一个完全乘 
方。如果产生的是82个初始路段，则平衡合并将要花费一趟额外的扫描。 

2) 多阶段合并在换输入磁带时浪费了 30 s , 而且在它等候重绕操作完成的同时 
总共花去 5 min 以上。对比之下平衡合并需要比较少的重绕时间。在多阶段合并的 
第二个阶段，由于可假定磁带6上的8个虚拟路段在该磁带重绕时即存在，因此节 
省了 13 s , 但是并不出现其它的重绕重叠。因此，多阶段法失败了，尽管它要求相当 

少的读写时间。 


例 3 向前读级联合并 此例情况类似于前例，但是使用算法 5.4.3 C 。 合并过 
程可概括如下： 
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70 1 — — — — 

记住，通过浏览图表 A , 观看每一个例子的进行情况。 


2 2 

16 1 


例4 


分磁带的多阶段合并 在 5.4.2 小节末尾描述的这一过程，允许重叠大 


多数重绕时间。它使用四路合并，所以我们把内存分成10个100个记录的缓 冲区; 
在替换选择树中有700个记录，所以结果形成了 72个初始路段。最后的路段又是 
非常短的。使用了一个类似于算法 5.4.2 D 的分布方案，之后接着一简单但稍微特 
别的设置虚拟路段的 方法： 
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4 l 3 l 

3 1 


0 2 4 4 

0 2 4 4 3 2 4 ! 

0 2 4 4 3 2 4 i 

0 M 4 3 2 4 l 

4 2 3 2 4 j 

AM 1 

3 2 4 j 

3 M 1 

4 1 


0 2 1 9 

0 2 1 9 4 4 

0 2 1 9 4 4 

1 8 4 4 

1 4 4 4 

1 3 4 4 

4 4 

4 3 

4 2 

4 1 


27 


72 


结果表明，这是图表 A 中所有不向后读的例子中最好的运行时间。因为 S 绝不会 
达到非常之大，故有可能研究出一个更为复杂的算法，它以一个甚至更好的方式来 
设置虚拟路段(参见等式 5.4. 2-(26))。 


例5具有重绕重叠的级联合并 尽管支配这个过程的算法要简单得多，但它 


却几乎像前面的例子一样快地运行。对于初始分布，我们像在算法 5.4.3 C 中那样 


简单地使用级联排序方法，但用 ： T = 5 来代替 T = 6 o 然后每个“级联”的每个阶段 
错开磁带的运行，使得我们通常不写磁带，除非它已经得到机会被重绕过了。这个 
型式可简略地 写为： 



7 2 



26 1 


72 1 


l 19 

丄10 

1 2 2 2 3 5 

4 io 

8 3 

7 2 8 2 


4 1 


8 1 

22 1 

16 1 


例6向后读的平衡合并 此例类似例1，但消去了所有的 重绕: 
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Af 

Af 

A ? 6 

Dl 

Dl 


Al 


AlAl 

d 1 2 . 

^27 

d 1 27 

^78 







由于例1中重绕比较少，这个方案不比向前读的情况好很多。事实上，尽管 S = 78 
是较好的值，但它实际比分磁带的多阶段稍慢。 

例 7 向后读多阶段合并 在这个例子中，仅使用了 6条磁带中的5条，为的是 
消去重绕时间和更换输入磁带。于是，仅仅使用了四路合并，而且缓冲区的分配就 
像例4和例5那样。使用了类似算法 5.4.2 D 那样的分布，但路段的方向是交替的， 
磁带1固定为最后的输出磁带。首先把一个递增的路段写到磁带1 上； 然后把递减 
的路段写到磁带2,3,4 上； 然后把递增的路段写到磁带2,3,4 上； 然后把递减的路 
段写到磁带1,2,3上等等。每次转换方向时，替换选择通常产生一个更短的路段， 
所以结果形成了 77个初始路段，而不是例4和例5中的72个。 

这个过程得到了（22,21,19, 15) 个路段的一个分布，而下一个完全的分布为 
(29,56,52,44)。习题 5.4.4-5 注明了怎样生成合并数串，以使生成的数串可以用 
来把虚拟路段放置在最优的位置上；由于一个磁带卷的有限性，确保了 s 绝不太 
大，所以这样一个过程在实际上是可行的。因此，图表 A 中的例子就是用这种设置 
虚拟路段的方法构造的（见习题 7) ，在所有图示例子中这证明是最快的。 

例 8 向后读级联合并 如同例7中那样，此例仅仅使用5条磁带。这个过程 
遵循算法 5.4.3 C ， 使用重绕和向前读来避免一路合并（因为重绕在 MIXT 磁带机上 
比读入要快两倍以上）。所以分布和例6—样。这个型式可以简单地概括如下，使 


用 1 来表示重绕： 

A? 1 

A? 2 

a! 9 

A； 0 


A” 

A\ I 


D\D\Dl 

Dj° 

Ag A; 

Ai 

A9 




d 17 

a 9 I 

D25 

D21 

A 7 2 






例 9 向后读振荡排序 对于 T = 5 的振荡排序（算法 5.4.5 B )， 可以使用如例 
4,例5,例7和例8那样的缓冲区分配，因为它进行四路合并。然而，替换选择不以 
同样的方式进行，因为恰在进入每个合并阶段之前要输出一个长度为700的（而不 
是1400左右的）路段，为的是清内存。因此，在此例中，产生85个路段，而不是72 

个。在这个过程中的某些关键步骤为 
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At 

Ai Ai 

AiAi 

Ai Ai 

d 4 


Ai 

A a 

A! 

D 4 D 4 

D 4 D 4 


d 4 


D 4 

d 4 

d 4 


^16 

d 4 

^16^4^4 

^16^4 

^16^4^1 

^16 

d 4 

A 16 D 4 D 4 

A 

^16^4 

^16 


a 16 d 4 

^16^4 

山 6 

^16^13 


a 16 d 4 

^16 

a 16 a 4 

^16^13 


^16 

A 16 A 4 

a 16 a 4 

^16^13 

D 37 

A 85 

Ai 6 1 

^16 ^ 

Ai 6 1 


例10向前读振荡排序 在此最后的例子中，不使用替代选择，因为所有的初 
始路段都必须是相同长度的。因此每当需要一个初始路段时，占满整个内存的 
1000个记录被内部 排序； 这使得 S = 100。 在这过程中某些关键步骤为 



Ai 

Ai 


At 

A! A 4 

A! 


A! 


A! A 4 




AiA 4 

^a 4 




A! A 4 

A! A 4 

A ： 

A! A 4 

AiA 4 

A! A 4 

A! A 4 

A! A 4 

^a 4 

^diA 4 

A 4 

^a 4 

A! A 4 A 16 






Ai a 4 

Ai A 4 

A! A 4 

Ai A 4 A 16 Ag 4 

a 4 

^a 4 

^Vi A4 

^iA 4 

A 4 A 16 Ag4 

A 4 A 16 




A 16 A 6 4 

A 4 A 16 

a 4 



^1^4-^16^64 




A 36 

^■1^4^16^64 

A 100 






这个例程是所有程序中最慢的，部分原因是未使用替换选择，但主要是因为它 
的结尾相当笨拙（一个两路合并）。 

估计运行时间 下面让我们来看看如何算出使用 MIXT 磁带的排序方法的近似 
执行时间。如果不进行详细的模拟，我们是否也能预测图表 A 中的结果呢？ 

用来比较不同合并型式的传统方法之一是叠印图，如图70,图74和图78中所 
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平衡的 (7 =6) 
级联 （ r =5) 
多阶段 ( r =5) 

振荡 (r =5) 


Q 1^_ II 1 1 I I 1 ll _ li i I < I i M _ I 1 i { 1 111!_ j 111 

I 2 5 10 20 50 100 200 500 1000 2000 5000 

初始路段 S 

图 85 比较合并型式的一种欠妥的方法 

现在我们借助于下列参数，尝试建立这样的一些 公式： 
iV = 有待排序的记录数； 

C 二每个记录的字 符数； 

M = 在内存中可以利用的字符位置数(假定为 C 的倍 数）； 
r = 读或写一个字符的 秒数； 

^01*=重绕一个字符的秒数； 

^二停止/启动时间延迟的 秒数； 

7=每个块间隔的字 符数； 

5=操作员为卸掉和替换输入磁带所需 秒数； 

尽 =在未排序的输入中每个块的字符数； 

B 0 - 在排好序的输出中每个块的字符数。 

对于 MIXT 我们有 r = 1/60000, p = 2/5, <7 = 300, 7 = 480。上面讨论的应用例子 
有 N = 100000 ， C = 100 ， M = 100000, S = 30, J 3, = B 0 = 5000。这些参数通常都是影 
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示的那样。在假定每个初始路段的长度大抵相同的条件下，这些图给出作为初始路 
段个数的函数对数据的有效扫描次数（见图85)。但这并不是非常现实的比较，因 
为我们已经看到，不同的方法导致不同数目的初始 路段; 其次，由于块间隔的疏密不 
同，引起开销时间也不同，而且重绕时间也有相当大的影响。所有这些同机器有关 
的特性，使我们不可能编制出独立于机器的对诸方法进行正确比较的图表。另一方 
面，图85说明了，除了平衡的合并之外，扫描的有效次数可以通过形如《 In S + p 的 
光滑曲线相当好地逼近。因此，在任何特定的情况下，都可以通过研究运行时间的 
近似公式，来对各个方法进行相当好的比较。我们的目标当然是要找出简单而且非 
常实用的公式来。 

10 I---- 

9 - 
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响排序时间的机器和数据特征中最关键的（尽管重绕时间通常都是以比较复杂的一 
个表达式给出的，而不只是一个简单的比率 p )。 给定了上述参数和一个合并型式， 
我们将进一步计算诸如下面的一 些量： 


P 

P ' 


S 




TT 




在此型式中合并的极大 阶数； 

=替代选择树中的记录 个数； 

初始路段 个数； 

a In S +卩=读和写每个字符的近似平均次数，未计人初始分布或最后合并 




，in S 




在中间合并阶段对每个字符进行重绕的近似平均 次数; 


B 




在中间合并阶段每个块的字符数; 



⑴ ,0)0 


开销比”，读或写一个字符所需有效时间（由于间隔和停止/启动）除 


以硬件的时间 



0 


图表 A 的例子，已经根据公式 


B 


M 

C (2 P + 2) 


C 


⑴ 


选择了块和缓冲区的大小，使得在同算法 F 的缓冲方案相一致的前提下块尽可能地 
大（为了避免最后扫描期间的麻烦， P 应该足够小，使得 （1) 能使因此，在 

替代选择期间，树的大小为 


P " 


(M - 2 B ： - 2 B)IC 


⑵ 


对于随机的数据，利用 5.4.1 小节的结果，初始路段的个数 S 可以估计为 


S 



JV 

2 P 


7 + 






⑶ 


假定坎 < b ， 以及在分布期间输人磁带可以以全速进行（见下文），则大约花费 

秒来分布初始路段，其中 



(B, + 7 )/ 8 , 


⑷ 


在合并时，缓冲方案允许同时读、写和计算，但输人磁带之间频繁的转换意味着必须 
增加由停止/启动磁带来的时间 花费； 因此我们置 


0) 


~ (B + y + 



)IB 


⑸ 


而合并时间近似于 




pTT’ ） NCo ) 



⑹ 


这个公式稍微地惩罚了重绕时间，因为 



包括了停止/启动时间，但其它的考 


虑，诸如重绕的互锁及从装磁带点起读造成的额外花费，通常都能对此做出补偿。 
假定则最后的合并扫描是通过开销比 


⑺0 


(B 



y)lB 


⑺ 


来加以限制的。 


我们可以估计最后的合并和重绕的运行时间为 

nC(l + p ) a) 0 r 

在实践中，由于存在不相等的块长度，它可能要花稍微长些的时间（输入和输出不像 


參 
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在算法 F 中那样同步），但运行时间对于所有的合并型式都将大致相同。 

在讨论对于个别型式的更特定的公式之前，让我们先来试着论证上述所做的两 

个假定。 

a) 替代选择能够跟上输入磁带吗？在图表 A 的示例中，它基本能够，因为它大 
约花费算法 5.4.1R 的内循环的10次迭代来选择下一个记录，而且我们有 Cw t r> 

1667p 来做这件事。只要在编写替代选择循环的程序时多加斟酌，在许多机器上 
(即使在20世纪70年代）都是做得到的。注意，这一情况在合并时不是太关键，因 
为每个记录的计算时间，几乎总是小于在一个 P 路合并期间每个记录的磁带运行 
时间，因为 P 不太大。 

b) 如 （1) 中那样，我们果真应选择 B 为缓冲区的最大容量吗？ 一 个很大的缓冲 
区会降低 (5) 中的开销比〜但它也会增加内部路段 S 的个数，因为庐减小了。哪 
一个因素更重要，并不是一眼就能看出来的。把合并时间看成:^ = 0^的函数，我们 
可以把它近似表示成 

卜 )( ㈢ ⑻ 

其中心，士，^是某些适当的常数，且0 3 > 心。关于： T 求微商，即可看出存在某 

个 iV Q ， 使得对于所有 JV>iV Q , 牺牲缓冲区的大小来增加0：并不值得。例如，在图表 

A 的排序应用中，大约等于10 000;当对多于10 000个记录排序时，大的缓冲区 

是有利的。 

然而要注意，当 S 超过 P 的一个乘方时，平衡合并的扫描次数急剧跃升。如果 
预先知道 N 的一个近似，则缓冲区大小应该被选择成使得 S 尽可能地稍小于 P 的 
一个乘方。例如，图表 A 第一行的缓冲区大小为12 500;由于 S=78, 这是非常令人 
满意的，但如果 S 是82,则减少一点缓冲区大小将要好得多。 

10个示例的公式 回到图表 A， 让我们试着给出一些公式，这些公式近似为10 
个方法中每个的运行时间。在大多数情况下，只要我们确定了中间合并扫描的次数 
tt = alnS + 召和 中间重绕扫描的次数/ = t/lnS +〆，则基本的公式 

NCcOiT + ( 7T + pK y ) NCcoT + (1 + p)NCa)Q T (9) 

将是对整个排序时间的充分好的近似。对 (9) 有时有必要附加进一步的校正。每一 
个方法的细节可以叙述 如下： 

例 1 向前读平衡合并 对于在 2 P 条磁带上的 P 路合并，可以使用公式 
7T = rin S/ln Pl-^TT^rin S/ln Pl/P 。 

例 2 向前读多阶段合并 我们可以取因为每个阶段的后面通常都跟 
有大约和以前的合并长度相同的重绕。由表 5.4.2-1 我们得到，在6条磁带的情况 
下值《〜0.795，^〜 0.864-2( 减2是由于表中的项除了中间的扫描外，还包括初始 
和最后的扫描）。在初始分布之后重绕输入磁带的时间， B 卩+夂应该加到 

⑼上。 
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例 3 向前读级联合并 表 5.4.3-1 给出了值 a 〜0.773，0〜0.808 -2。估计 
重绕时间比较 困难； 或许置 tt ^ tt 就足够精确了。如同例2 —样，我们需加初始重 
绕时间到 （9) 上。 

例4分磁带多阶段合并 表5.4.2-6给出除开初 
始化 5) 和接近末尾的两个阶段 UpiVC ^ r 乘36%)外重绕时间几乎重叠。 

我们也可以从^减去0.18,因为前半个阶段为初始重绕所重叠。 

例 5 具重绕重叠的级联合并 在这种情况下对于 ： T = 5 我们使用表 5.4. 3-1， 
得到《〜0.897,^〜0.800-2。几乎所有的非重叠的重绕都恰出现在初始分布之后 
和每两路合并之后。在一个完全的初始分布之后，最长的磁带包含数据的大约 1/ g ， 
其中 g 是“增长率”。在每个两路合并之后，在6条磁带的情况下重绕的数量为 

参见习题 5.4. 3-5)，因此可以证明，在 了条 磁带的情况下，在两路合并之后 

的重绕量近似于该文件的 

(2/(2 T - 1))(1 - cos (4 丌 /(2 T - 1))) 

在我们的情况下 ， T = 5,这是该文件的|~(1_ COS 80°) 〜0.184,而且它出现的次数是 
0.9461 nS + 0. 796-2。 

例 6 向后读平衡合并 除大多数的重绕已被消去外，它和例1类似。从向前 
变成为向后这一方向变化，引起某些延迟，但是这些延迟并不重要。在最后扫描之 
前，将有 50-50 机会需要重绕，所以我们可以取/ = 1/(2尸）。 

例 7 向后读多阶段合并 由于此情况下的替代选择产生大约每 P 次改变一 
次方向的路段，我们必须以 S 的另一个公式来替换（3)。由习题 5.4.1-24 所提示 
的、一个相当好的近似是 S = [ N (3 + 1/ P )/(6 P /)1 + 1。消去了所有的重绕时间，因 

而表 5.4.2-1 给出 a ^0.863,/3^0.921 -2 0 

例 8 向后读级联合并 由表 5.4.3-1 我们有897，/?〜0.800 - 2。重绕 
时间可以估计为在该表中的“有拷贝的扫描”减去“无拷贝的扫描”后所得差额的两 
倍，假如在最后的合并之前必须重绕，以得到递增的次序，则加上 1/(2 P )。 

例 9 向后读振荡排序 在这种情况下，替代选择要被启动和停止许 多次； 每 
次分布 P -1 到 2 P -1 个路段，长度平均为因此，路段的平均长度近似于 P / (2 P 
-4/3)/ P ， 故我们可以估计 S =「 N /((2-4/(3 P )) p /)1 + 1。用一点时间来做从合 
并变为分布和从分布变为合并的 转换； 这近似于从输入磁带读入 ，个 记录的时间， 
即 ， C ^ r ， 且它大约出现 SIP 次。 重绕时间和合并时间可以像例6中那样估计。 

例 10 向前读振荡排序 此方法不易于分析，因为在输入已穷尽后最后执行 
的“清除”阶段不像先前的一些阶段那样有效。若忽略这个麻烦的方面，只简单地要 
求做额外一次扫描，我们就可以通过置 a = l/ln P ，/3 = 0, 及/ = tt / P 来估计合并时 
间。在这种情况下路段的分布有些不同，因为未用替代 选择; 我们置，= MIC 及 S 
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二 「 iV / Pn 。 注意，通过在开销中增加大约为 （M + 2 B )/ M 的一个额外因子，有可能 
在分布期间使计算和读写重叠起来。在此情况下并不需要例9中提到的“方式转 
换”时间，因为它已为重绕所重叠。所以在此情况下估计的排序时间为 （9) 加上 


表1排序的时间估计一览 


7 K 例 P 

B 


s / 

0) 

a 


/ 

a 


(9) 

加到 （9) 中 

估计数实际数 
总和 总和 

1 

3 

12500 

650 

79 

1.062 

0.910 

-1.000 

0.303 

0.000 

1064 


1064 

1076 

2 

5 

8300 

734 

70 

1.094 

0.795 

_ 1 • 136 

0.795 

— 1 . 136 

1010 

pNCwiT + S 

1113 

1103 

3 

5 

8300 

734 

70 

1.094 

0.773 

-1.192 

0.773 

-1.192 

972 

pNCwiT + S 

1075 

1127 

4 

4 

10000 

700 

73 

1.078 

0.752 

-0.944 

0.000 

0.720 

844 

pNCwiT + S 

947 

966 

5 

4 

10000 

700 

73 

1.078 

0.897 

-1.200 

0.173 

0.129 

972 


972 

992 

6 

3 

12500 

650 

79 

1.062 

0.910 

-1.000 

0.000 

0*167 

981 


981 

980 

7 

4 

10000 

700 

79 

1.078 

0.863 

-1.079 

0.000 

0.000 

922 


922 

907 

8 

4 

10000 

700 

73 

1.078 

0.897 

-1.200 

0.098 

0.117 

952 


952 

949 

9 

4 

10000 

700 

87 

1.078 

0.721 

-1.000 

0.000 

0.125 

846 

^SCwitjP 

874 

928 

10 

4 

10000 


100 

1.078 

0.721 

0.000 

0.180 

0,000 

1095 

IBNCwizlM 

1131 

1158 


表1表明，在这些示例中这些估计并不太坏，尽管在一些情况下，有 50 s 左右的 
差异。例2和例3中的公式指出6条磁带时级联合并比多阶段还要好些，然而实际 
上却是多阶段更好。原因是像图 85( 它示出5条磁带的情况）这样的图对于多阶段 
算法来说更接近于 直线； 如果有 14< S <15 和 43< S <55, 即近乎“完全”的级联数 
15和55,则在6条磁带上级联比多阶段更好，但算法 5.4.2 D 的多阶段分布，对于所 
有其它的 S <100 同样好或更好。当 S — 〜时级联将优于多阶段，但 S 并不真正地 
趋于 a 。 例9中的估计不足也是由于类似的情况 所致； 多阶段优于振荡，尽管渐近 
理论告诉我们，对于很大的 S ， 振荡将是更好的。 

杂记 现在宜于对磁带的合并来做一些随机的 观察： 

•上式公式表明，磁带排序的费用实际上是 iV 乘 C 的函数，而不是独立的 iV 和 
C 的函数。除了一些较小的考虑（例如把 B 取作 C 的一个倍数）外，我们的公式指 
出，对每个含10个字符的100万个记录排序，和对每个含100个字符的10万个记 
录排序，所花时间大体相同。虽然在公式中未予说明，但实际上却可能有差别，这差 
别是由于在替代选择期间为链接诸字段所用的空间造成的。无论如何，键码的大小 
很难造成任何差别，除非键码是那么长和复杂，以致内部计算已不能跟上磁带了。 

对于长的记录和短的键码，我们经常会想要先“分离出”这些键码，并对它们排 
序，而后再设法重新整理这些记录。但这个思想实际上并不行之有效，它仅仅是延 
迟了你的烦恼而已，因为最后的重整理过程大约要花费和通常的合并排序相同的时 
间。 

•在编写一个有待重复使用的排序例程时，非常谨慎地来估计它的运行时间，并 

且把理论同实际观察到的性能进行比较，是明智的。由于排序理论已经相当成熟， 

■ 
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因此也就知道这个过程会显露岀现存系统上输入 / 输出硬件或软件的 缺陷； 但服务 
工作慢于它应该有的速度，而且直到排序例程运行得实在太慢时，方才引起人的注 
意！ 

•我们对替代选择的分析是对“随机”文件进行的，但在实践中真正岀现的文件 
经常已有一定的次序（事实上,有时人们确实在对已经排好序的文件排序，而这仅仅 
是为了确认）。因此经验证明，替代选择比其它类型的内部排序更可取，这比我们公 
式中所指出的还要突出。在向后读多阶段排序的情况下，这个优点不太明显，因为 
必须产生一些递减的 路段; 确实， R . L . Gilstad (他首先发表了多阶段合并）原来即由 
于这个原因而否定了向后读的技术。但他后来注意到，交替的方向仍将挑出长的递 
增路段。而且向后读多阶段是仅有的既适用于递减输入文件，也适用于递增输入文 
件的标准技术。 

•替代选择的另一个优点是它允许同时进行读、写和计算。如果我们仅仅以一 
种显然的方式进行内部排序——填满内存，对它进行排序，然后当开始装入下一个 
负载时写出它——则分布扫描将大约花费两倍之长的时间！ 

我们已经讨论过的，唯一适合于同时读、写和计算的其它内部排序，就是堆排 
序。为了方便起见，假设内部的内存能存1000个记录，磁带上每个块能存100个记 
录。图表 A 的例10就是以下列策略编制的，令… B 1 Q 表示分成10个块，每个 

块各100个记录的内存的 内容： 

步骤0填满内存，并使的元素满足堆（在根处具有最小元素）的诸不 

等式。 

步骤1 成为一个堆，然后选择出最小的100个记录，并且把它们移 

到 B 10o 

步骤2写出 B 1 Q ， 同时选择仏…^的最小的100个记录，并把它们移到 B 9 。 

步驟3读入 B 1 Q ，并写出，同时选择的最小的100个记录，并把它 

们移到 B 8 。 


步驟9读入 B 4 ，并写出 B 3 ，同时选择的最小的100个记录，并把它们移 

到，同时使堆的诸不等式在中成立。 

步驟10读入 B 3 ，并写出，同时对排序并使堆的诸不等式在中 

成立。 

步骤11读入，并写出，同时使堆的诸不等式在… B 1() 中成立。 

步驟12读入，同时使堆的诸不等式在中成立，返回步骤1。 I 

•我们已经假定要排序的记录个数 AT 事先是未知的。实际上在大多数计算机 
的应用中，对全部文件中的记录个数保持跟踪是可能的，并且可以假定计算机系统 
有能力告诉我们 N 的值。这将有多大的帮助呢？可惜，不很大！我们已经看到，替 
代选择是非常有利的，但是它导致了一个不可预测的初始路段个数。在一个平衡合 
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并中，我们可以使用关于 n 的信息，以这样的方式来设置缓冲区的大小 b ， 即使得 
s 大概将恰恰小于 p 的一个 乘方； 而在具有最优的虚拟路段设置的多阶段分布中， 
我们可以使用关于 N 的信息，来判 断使用 什么级别最好(参考表 5. 4.2-2)。 

•磁带驱动器倾向于被看作是计算机最不可靠的部分，因 此在确保整个排序已 
经令人满意地完成之前，决不要损坏原来的输入磁带。 在图表 A 的一些示例中 ，虽 

然“操作员的卸磁带时间”是令人厌烦的，但是，鉴于在一个长排序期间经常可能出 
错，所以重写输入还是太冒险了。 

•当从向前写变成向后读时，只要不把最后的缓冲负载写到磁带上，我们.可以节 
省一些 时间； 因为它总是要读进来的！图表 A 表明，这个技巧实际上节省的时间比 

较少，除非是振荡排序，它经常要变换方向。 

•尽管一个大型的计算机系统可能有大量的磁带机，但是我们不把它们全用光 
可能更好些。当 P 很大时， log P S 和 logp + ! S 之间的百分比差不是非常大的，而且 

更髙阶的合并通常意味着更小的块（另外还要考虑安装所有这些空白磁带的可怜的 
计算机操作员）。另一方面，习题12描述了利用附加磁带机的一种有趣方式，即把 

它们组合在一起以便重叠输入/输出时间，而不必增加合并的阶。 

•像 MIX 这样的机器上，都有固定的很小的块大小，在合并时几乎不需要使用 
任何内存。这样振荡排序变得更有吸引力，因为在合并时维持替代选择树于内存中 
成为可能。事实上，在这种情况下，我们可以（如 Colin J.BeU 在 1962 年提议的）改 

进振荡排序，每次从工作磁带合并时，同时合并一个新的初始路段到输出中。 

•我们已经观察到，对多卷文件，每次只应该排序一卷，以避免过多的磁带处理。 
这有时称为“卷时间”应用程序。实际上，如果比较细心地编写程序，则在6条磁带 
上的一个平衡排序，能够同时对3个满卷排序，直到最后的合并时间为止。 

为了对大量的已经各自排好序的磁带卷进行排序，极小路径长度的合并树将是 
最快的（参见 5.4.4 小节）。 这个 构造首先是由 E . H . Friend 做出的 [JACM 3 
(1956) ，166〜167]。 而后 W . H . Burge[/nformation and Control 1(1958) ,181 — 197] 

指出，如果我们忽略磁带的处理时间，则合并给定（可能不等）长度路段的一种最优 
方式，可通过构造用路段长度做为权，具有极小加权路径长度的一株树来得到（参见 
2.3.4. 5 小节和 5.4.9 小节）。 

•我们的讨论已经冒失地假定我们有对磁带机输入/输出指令的直接控制，而且 
没有复杂的系统接口来阻止我们像磁带的设计者所希望的那样有效地使用磁带。 
这些理想的假定，使我们洞察了磁带合并的问题，而且还可以使我们对于操作系统 
界面的正确设计有所了解，但应认识到，多程序设计和多进程可使情况更为复杂。 

•这一节所研究的内容，是由 E . H . Friend [JACM 3 (1956),134 〜168]， W . 

Zoberbier [Elektronische Da ten verarbeitung 5(1960) ， 28 〜 44] 以及 M. A. Goetz [Digital 
Computer User's Handbook (New York:McGraw_Hill，1967)，1.292 〜 1 _320] 首先在 

出版的著作中讨论的。 

小结 我们可以以如下方式，总结在磁带排序的各个不同方法的相对效率中所 
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学到的东西。 

定理 A 判断一个给定情况下哪个合并型式最好是困难的 。 ■ 

图表 A 中的示例说明，100 000个随机排序的100个字符的记录（或1百万个 
10个字符的记录），在现实的假定之下，可以如何利用6条磁带来进行排序。这么 
多数据填满大约一半的磁带，而且它们能在大约 15 min 〜 19 min 内在 MIXT 磁带上被 
排序； 然而可利用的磁带机有相当大的差异，而且这样一个作业的运行时间，在不同 
的机器上，可以小到 4 min ， 大到 2 h 。 在我们的例子中，路段的初始分布和内部排序 

使用了大约 3 min 时间； 最后的合并和重绕输出磁带使用大约4 + min ; 而合并的中 

间阶 段花费的大约 7 士 min 〜11 士 min 。 

给定不能向后读的6条磁带，在我们的假定之下，最好的排序方法是“分磁带的 

多级合并”(例 4); 而对于允许向后读的磁带，最好的方法为具有一个复杂的虚拟路 

段设置的向后读多阶段法（例7)。振荡排序（例 9) 仅次于它。在这两种情况下级联 

合并提供了一个更简单的方案，它仅仅稍微慢些（例5和例8)。在向前读的情况下， 

一个直截了当的平衡合并（例 1) 惊人地有效，其部分是因为这个特定例子恰好适合 
于它，部分是因为它花费较小的重绕时间。 

如果我们有不同数目的磁带可供利用，则情况将稍有不同。 

排序生成器 由于数据以及设备的特性是千变万化的，所以几乎不可能写一个 

单一的外部排序程序，使它在非常多的应用中都令人满意。而且也颇难编写能真正 

有效处理磁带的一个程序。因此排序软件的编制是一项特别有挑战性的工作 。一 

个 排序生成器是 这样一个程序，它根据描述数据格式和硬件配置的参数，产生出适 

合于某类特定的排序应用的机器代码。这样一个程序通常都依赖于诸如 COBOL 
或 PL/I 这样的高级语言。 

一个排序生成器通常提供的特性之一，是插入用户“自己的代码”的能力，这是 

有待加人到排序例程的第一遍和最后一遍扫描的特殊指令序列。第一遍扫描的自 

己的代码常常用来编辑输人记录，通常把它们缩小或扩展成为易于排序的形式。例 

如，假设输人记录按一个9字符的键码来进行排序，该键码以月-日-年的格式表示日 
期： 

JUL 041776 OCT 311517 NOV 051605 JUL 141789 NOV 071917 

在第一次扫描时，3个字母的月代码可在一份表中查出，而且月代码可以用最高有 
效字段在左边的数来 代替： 

17760704 15171031 16051105 17890714 19171107 

这就减小了记录的长度并且使随后的比较简单得多（甚至还可以换成一个更紧凑的 
代码）。最后扫描的自己的代码，则可用来恢复原来的格式，和/或对文件进行其它 
想要的变动，和/或计算输出记录的某个函数。我们已经研究过的合并算法，是以这 
种方式组织的，即易于把最后的扫描同其它合并阶段区别开来。注意，当出现自己 
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的代码时，必须至少对文件进行两次扫描，即便它开始时已经是有序的亦然。改变 

记录大小的自己的代码，可使振荡排序难以来重叠它的某些输入/输出操作。 

排序生成器也照顾到诸如磁带标识的约定等系统细节，而且它们通常提供“散 

列总和”或其它校验以确保不丢失或改变数据。有时还有在适当的位置停止排序及 

过后恢复执行的规定。最优秀的生成器允许记录有动态变化的长度[参见 D . J . 
Waks , CACM 6(1963), 267 - 272 ] 。 

# 使用较少缓冲区的合并 我们已经看到，在 P 路合并期间，为跟上磁带的急 
速移动， 2 P + 2个缓冲区已足够了。现在在结束本节之前，让我们从数学上分析一 
下，少于 2 P + 2个缓冲区时的合并时间。 

两个输出缓冲区显然是可取的，因为我们可以在从一个中写出的同时，在另一 
个中形成下一个输出块。因此我们完全可以忽略输出的问题，而仅仅专注于输入。 

假设有 P + Q 个输人缓冲区，其中 1< Q < P 。 如同 L . J . Woodrum 所提议的， 
我们将使用这种状态的下列近似模型 [JBM Systems J . 9( 1970) ，118〜 144] ;每读磁 

带上一个块需用一个时间单位。在这段时间里，没有输入缓冲区变成空的概率为 
%，有一个变成空的概率为 h ， 有两个或更多变成空的概率为，等等，当完成一 

条磁带的读入时，我们处于 Q + 1 个状态 之一： 

状态0 Q 个缓冲区 为空； 我们使用在此小节中早些时候说明的预报技术，开 
始从适当的文件读一个块进入 Q 个缓冲区之一。在一个时间单位之后，我们以概 
率外转到状态1，否则我们留在状态0。 

状态1 Q -1 个缓冲区 为空； 预报适当的文件，我们幵始读入 Q -1 个缓冲区 

之一。在一个时间单位之后，我们以概率％转到状态2,以概率 h 转入状态1，以 

概率/) >2 转入状态0。 


状态 G 


1 




个缓冲区 为空； 预报适当的文件，我们开始读入此缓冲区。在一 


个时间单位之后，我们以 概率％ 转到状态 Q ， 以概率 h 转到状态 Q -1，以概率 
“^转到状态1和以概率夕 >(3 转到状态0。 

状态 G 所有缓冲区都被填满。读磁带停止平均 M 个时间单位，而后转到状态 



我们以状态0开始。这个状态的模型对应于一个 马尔可夫过程 （参见习题 
2.3. 4.2-26)，它可以以下列有趣的方式通过生成函数来进行分 析:设 z 是一个任意 
参数，而且假定，每当我们有读磁带机会时，决定读磁带的概率为 z ， 而决定结束算 

法的概率为1 - z 。 现在令 gQ ( z ) = 2 n >0 a [ Q ) z n ( l - 幻 是在这样一个过程中岀现状 
态 Q 的平均 次数； 由此得出 < Q) 是当恰好读了 n 个块时状态 Q 出现的平均次数。 


于是 n + a ( „ Q 、是输入加上计算的平均总时间。如果如同在 (2 P + 2) 个缓冲区的算 


法中那样，我们有完全的重叠，则总共的时间将仅仅是 n 个单位，所以 afY 表示 
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“读挂起”的时间。 

对于 0<i，7<Q + 1，其中 Q + 1是一个新的“被停止”状态。令 Ad 是在此过程 
中我们从状态 i 转到状态 j 的概率。例如，对于小的 Q，A 矩阵取如下的 形式： 


Q 


Q 


2： 


Q 



P>1 

z 



1 — z 

1 


0 


0 

0 


0 


0 


z 

Pqz 


0 

P 彡 2 

z 

P\^ 


Poz 

0 


1 


0 

0 


0 


0 

p>l z 

Poz 

0 

0 

1 — z 

P>2 Z 

p\^ 

Po z 

0 

1 — z 

P>3 Z 

P2 Z 

P/ 

Po z 

1 — z 

0 

0 

1 

0 

0 

0 

0 

0 

0 

0 


Z 


Z 


0 

0 


习题 2.3.4.2-26(b) 告诉我们， g Q (z) 




余因式 


Q 0 


(/-A)/det(/-A) 0 于是，例如 


当 Q 


1时，我们有 


0 


Z - 1 


兮 1 ( 之 ) 


det 


0 


0 

0 


0 


det 


1 - 

- 1 
0 


Po ^ z - 1 


0 


0 


Poz 


1 一 Pl z ~ Po z 


1 - ^ 


Z 


X) np 0 z n (l - z) 


n^O 


所以 


a 


(l) 


72如，这当然是预先就显然的，因为当 Q 




1时问题是很简单的。当 Q 


2时（见习题 14) 类似的计算给出不大显然的公式 

(2) Po n 夕0(1 


a 


p\ n 

1 _ 夕1 


p \) 


(1 _ p \) 


( 10 ) 


般地说，我们可以证明，当 n 


⑺时 / Q ) 的形式为 《( Q )n+ 0(1)，其中常数 《( Q ) 


不是太难计算的（见习题15)。结果为《 (3) 


pll (( l - Pi ) 2 - PoPi)o 


鉴于合并的本性，我们有相当的理由来确定 ii = HP 以及 


个二项式分布 


例如，当 


pk 

5时，我们有外 


P 

k 


P 


P - 1 
P 


p-k 


32768, p 


4096, p 2 


2048, p 3 


0512, p 4 


.0064, 以及 


.00032, 因此《 (1 )义0.328，/ 2 )义0.182，以及 a (3) ^0.125 o 换句话 


说，如果我们使用5 + 3个输入缓冲区代替5十5个输入缓冲区，则可以预期一个额 
外的大约0 . 125/5〜2 . 5 %的“读挂起”时间。 
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当然，这个模型仅仅是一个非常粗略的近似，我们知道，当 Q = P 时，全然没有 
挂起时间，但这个模型说有 。 对于较小的 Q ， 额外的读挂起时间大约恰恰抵消通过 
较大的块所节省的开销，所以简单的 Q = P 的方案似乎是合理的。 

习题 

1. [13] 假设在没有块间的间隔时.，每条磁带正好包含23 000 000个字符。求当磁带上的每 

个块包含〃个字符时，每条磁带的准确字符数的一个公式。 

2. [15] 说明为什么图84的第6行中文件2的第一个缓冲区完全是空的？ 

3. [20] 如果仅有 2 P -1 个输人缓冲区而不是 2 P 个，则算法 F 能正确工作吗？若能，则证明 

之； 若不能，则给岀一个使它不对的例子。 

4. [20] 如何改变算法 F ， 使得当 P = 1 时它也能够工作？ 

► 5. [21] 当相等键码出现在不同的文件中时，在预报过程中就必须非常小心。说明为什么，并 

通过更精确地定义算法 F 的合并和预报操作来说明怎样避免这个问题？ 

6. [22] 为了把算法 5.4.3 C 转换成对于 T + 1条磁带的具有重绕重叠的级联合并的一个算 

法，对算法 5.4.3 C 应该做些什么改动？ 

► 7. [26] 图表 A 例7中的初始分布产生 

( AA ) 11 D ^ AjDO 10 DyiA . DO 9 D ^ A . D ,) 7 

于磁带 1 〜 4 上，这里指的是说明如柯以“最 
好”的方式来插人诸 A c 和 D〆 所谓最好，指的是在合并时所处理的初始路段总数为极小），使分 

布变成为 

A ( DA ) 14 ( DA ) 28 ( DA ) 26 ( DA ) 22 

提示 ：为了 保持奇偶性，有必要把许多 A c 和 D g 作为相邻的对偶插人。每个初始路段的合并 
数，可以像在习题 5.4.4-5 中那样来 计算； 由于相邻的路段总有相邻的合并数，就会出现某些简 
化。 

8. [20] 图表 A 说明，路段初始分布的大多数方案（对于级联合并的初始分布例外），都趋向 
于把相继的路段置到不同的磁带上。如果相继的路段放到相同的磁带上，则我们可以节省停止/ 
启动 时间； 如果因此而修改分布箅法，以减少磁带的转换次数，是一个好的想法吗？ 

► 9. [22] 如果我们对于排序都用了 = 6条磁带，而不是像在例7中那样用了 = 5条磁带，试估 
计图表 A 中的向后读多阶段算法将会多长。避免使用输入磁带是明智的吗？ 

10. [ M 23] 使用 5.4.2 小节和 5.4.3 小节的分析，证明在一个标准的6条磁带的多阶段或级 
联合并期间，每次重绕的长度很少超过文件的大约54% (初始和最后的重绕除外，它们遍及整个 
文件）。 

11. [23] 通过修改表1中适当的项，试估计，如果我们有一个联合的低速/高速重绕，则图表 
A 的前9个例子将花费多长时间？假定磁带未装满1/4时 p = l , 并假定更满的磁带的重绕时间近 

似于 5 s 加上当 p = + 时花费的时间。试改变例8,使得它使用有拷贝的级联合并，因为在这种情 

况下重绕和向前读比拷贝更慢[提 示：使 用习题10的结果]。 

12. [40] 考虑把6条磁带划分成3对磁带，每对在丁 = 3的多阶段合并中起着一条磁带的作 
用。每对的一条磁带将包含块1，3,5…而另一条磁带将包含块2,4,6, …； 这样一来，合并时，实质 
上我们总有两条输人磁带和两条输出磁带在活动，这等效于加倍了合并的速度。 
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a ) 试找出一个适当的方式把算法 F 推广到这一情况。应有多少个缓冲区？ 

b ) 如果用这个方法对100 000个100个字符的记录排序，考虑向前读和向后读两种情况，试 
估计总共的运行时间将是多少？ 

13. [20] 按照算法 5.4.5 B 中的定义，一个5磁带振荡排序可否用来对4个满卷的输人数据 
排序，直到最后合并时为止？ 

14. [ M 19] 推导（10)。 

15 .[ HM 29 ] 证明 gQ U ) = A Q U )/( l - z )， 其中是单位圆里边没有奇点的 z 的一个有 
理 函数； 因此当打― oo 时，/广=/^ ⑴ „ + 0(1), 特别证明 

1 ~ Po 0 0 

1 1 ~ pi - pa 0 

1 _ Pi l-^i _ Pq 

0 0 - 1 1 . 

16. [41] 假定可利用 3、4 或5条磁带时，像在图表 A 中那样画出图表，详细研究对100 000 
个100字符的记录的排序问题。 

* 5 . 4.7 外部基数排序 

前面几节已经讨论了通过合并进行磁带排序的 过程; 但是还有另外一种用磁带 
进行排序的方式，它的依据是机械的卡片排序机(参见 5.2.5 小节）所用的基数排序 

原理。这个方法有时称为分布排序、列排序、袋排序、数字排序、分开排 序等； 可以证 
明，它实际上恰与合并相对立！ 

例如，假设有4条磁带和仅有8种可能的键码:0，1，2,3,4,5,6,7。如果输入数 

据在磁带1上，则开始我们可以把所有的偶键码传送到 T 3, 把所有的奇键码送到 
T 4： 

T 1 T 2 T 3 T 4 

给定 10,1,2,3,4,5,6,71 - - - 

扫描 1 - - |0,2,4,61 |1,3,5,7| 

现在我们重绕，并读 T 3 而后读 T 4, 把|0，1，4,5丨置于11上，|2,3,6,71置于17上 ： 
扫描2 {0,4(|1,5) |2,6) |3,7| — - 

符号“10,4! 11, 5}” 表示一个文件，这个文件包含某些记录，它们的键码都是0或4, 
后边跟着键码都是1或5的记录。注意， T 1 现在包含的诸键码的中间二进数字均 
为0。在再次重绕和分布0，1，2,3到 T 3 以及4,5,6,7到 T 4 之后，有 

扫描3 |0((1)|2)|31 |4(|5(|6)|7| 

现在我们可以通过拷贝 T 4 到 T 3 的末尾来结束。一般地，如果键码的范围是从0 
到2&-1，则我们可以 利用々 趟扫描，以类似的方式对文件排序，后边接之以最后的 
“收集”阶段，它从一条磁带拷贝大约一半的数据到另一条磁带。若用6条磁带，则 
可以以类似的方式，使用基数3的表示，在々趟扫描中对从0到 3&- 1的键码排序。 
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也可以使用部分扫描的方法。例如，假设有10种可能的键码|0，1，...9丨，考虑 

由 R . L . Ashenhurst 给出的下列过程 [Theory of Switching , Progress Report BL -7 
(Harvard Univ . Comp . Laboratory : May 1954) ， 1.1 〜 I • 76]: 


阶段 

T 1 

|0，1，…，9| 

T 2 

T 3 

T 4 

扫描 

1 

— 

10,2,4,7) 


13,8,91 

1.0 

2 

|0| 

— 

il ,5,6||2,7| 

|3,8,9 H 4| 

0.4 

3 

iol | 1 )| 2 | 

|6||7| 

—— 

I 3,8,9||4||5| 

0.5 

4 

收集 

101 111 |2||3| 

|0| 111|2 lj 3 lj 4 卜 -|9| 

|6||7)|8! 

19} 

|4||5] 

0.3 

0.6 

2.8 


如果每个键码值出现的机会大约为1/10,则上述过程只花费 2.8 趟扫描来对10个 

键码排序，而第一个例子则需要 3.5 次扫描来对仅仅8个键码排序。因此我们发 

现，无论是基数排序还是合并，由于所使用的分布型式巧妙不同，其结果可以是很不 
一 样的。 

上述例子中的分布型式可以方便地表示成树 结构： 

例1 例2 

A A 




□ □ □ □ □ 

4 6 5 7 7 

这些树圆形的内部节点编号为1，2,3,…，对应于这一过程的步骤1，2,3,…。所有 
树的旁边分别标以磁带名 A ， B ， C ， D (代替丁1，72，丁3，丁4)，以说明这些记录的去 
处。正方形的外部节点表示一个文件仅包含有一个键码的部分，该键码以黑体示于 
此节点之下。在正方形节点上方的线旁为输出磁带的名字（在第一个例子中为 C , 
在第二个例子中为 A )。 

于是，例1中步骤3的组 成为： 从磁带 D 读入并写1和5到磁带 A 上，写3和7 
到磁带 B 上。如果我们假定每个键码都同样经常地出现，则不难看出，所执行的扫 
描趟数等于树的外部 路径长 度除以外部节点数。 
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由于磁带的顺序性，以及向前读的 - Wo 的原则，我们不能简单地使用任何有标 
号的树来作为一个分布型式的基础。在例1的树中，在步骤2和步骤3期间数据写 
到磁带 A 上； 在我们使用步骤3期间所写的数据之前，必须首先使用步骤2期间所 
写的数据。 一 般地说，如果在步骤 i 和 ； 期间写到一个磁带上，其中 i < 7 ,则我们必 
须首先使用在步骤 i 期间写的 数据； 当树包含形如 


© 

4 


0 

4 

© 



的两个分支时，必须有 k < lo 并且不能在步骤 A 和/之间向磁带 A 上写任何东西， 
因为我们必须在读和写之间进行重绕。 

已经做了 5.4.4 小节习题的读者，现在会立即觉察到，可以表示在： T 条磁带上 
向前读基数排序的树，恰恰就是“强 T - Wo ” 树，它表征了 了条 磁带上的向前读的合 
并排序（见习题 5.4.4-20)! 惟一的差别是，我们在这里考虑的树的所有外部节点都 
有相同的磁带标号。只要假定一个最后的“收集阶段”，这个阶段把所有记录传送到 
一条输出磁带上，我们就可以去掉这个 限制； 或者也可以附加这个限制到 T -fifo « 
的诸规则上，为此要求合并排序的初始分布扫描，能明显地在对应的合并树中表示 


岀来。 

换句 话说， 每一个合并型式对应于一个分布型式，而每一个分布型式对应于一 
个合并型式。 稍经考虑后就知道为什么这样：我们按反方向做合并排序，首先“拆 
开”最后的输出成为一些子文件，这些子文件又拆开成其它的，等等。最后，我们将 
把这个文件拆开成为 S 个路段。实现这样一个型式是可能的充要条件是，对应的 
基数排序分布型式对于 S 个键码来说是可能的。合并与分布之间的这种对偶性几 
乎是完 全的； 它仅在一个方面不成立，即输入磁带的内容必须在不同时间里保存。 

本节开始时所讨论的8个键码的例子，显然对偶于4条磁带上的一个平衡合 
并。部分扫描的10个键码的例子，对应于下列10路段的合并型式（如果去掉拷贝 
阶段——即树中的步骤6〜11——的 话）： 


初始分布 
树步骤5 
树步骤4 
树步_ 3 
树步骤2 
树步骤1 



如果把此同基数排序进行比较，则我们看到，这些方法实际上都有相同的构造，但在 
时间上是颠倒的，同时磁带的内容也从后面颠倒到前头两个长度皆为1的路 
段，后边接有长度为3的一个路段）对应于 |3,8,9 l i 4 H 5 l ( 两个子文件，每个包含1 

个键码，前面还有包含3个键码的一个子文件）。 
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换一种方式，我们原则上也可以构造一个基数排序，使其对偶于多阶段合并，另 
一个对偶于级联合并，等等。例如，在 5 . 4.2 节开始所说明的在3条磁带上的21个 

路段的多阶段合并，对应于下列有趣的基数 排序： 


阶段 

T 1 

T 2 

T 3 


10,1，…，20| 

— 

— 

1 

— 

10,2,4,5,7,9，10，12，13，15，17，18,201 

11,3,6,8,11,14,16,19( 

11,3,6,8,11,14,16,191 

2 

10,5,10,13,18( 


(2,4,7,9,12,15,17,201 

3 

10,5,10,13,181|1,6,11,14,19| 

12,7,12,15,20( 

13,8,161(4, 9,171 

— 

4 

— 

13,8,161(4,9,17(15,10,181 

|6,11,19||7,12,20! 

|0,13||1,14||2,15| 

|0, 13)11, 14||2,151 

5 

|8}|9||10 1111112) 


|3,16|-|7,20| 

6 

I 8||9(| l 0 t | ll ! 121113卜 .1201 

ioim … m 

— 


这里用来决定在每个步骤中哪些键码进到哪些磁带上的分布规则，似乎是玄妙的， 

但是事实上它与斐波那契数系统有着一种简单的联系（见习题 2 )! 

向后读 基数排序和合并之间的对偶性也可应用于向后读的算法。我们已经在 

5.4.4 小节定义了“ T - lifo 树”，容易看出，它们对应于基数排序，也对应于合并排序。 

实际上，在1946年 John Mauchly 就已考虑过向后读的基数排序，那是关于排序 

的最早发表的论文之一（参见5_5 节）； Mauchly 实际上给出了下列构造： 


阶段 

T 1 

T 2 

|0，1，2,…91 

T 3 

T 4 

1 

14,5| 

— 

12,3,6,71 

10,1,8,9! 

2 

|4,5||2,7| 

|3,6| 

— 

10,1,8,91 

3 

|4,5||2,7||0,9) 

|3,6||1,81 

— 

— 

4 

14,51(2,71 

|3,6||1,8| 

9 

101 

8 



|9||8|17||6115) 

|0||1) 121131(4} 

C 

一 

— 

— 

101 U 1 UH 3 I ⑷⑸… 191 


他的方案并不是最有效的，但它却是有趣的，因为它说明，在1946年即已考虑 
过在基数排序中使用部分扫描方法，尽管直到大约 I 960 年以前它们还未出现在关 

于合并的著 作中。 

向后读分布型式的一个有效的构造已经由 A . Bayes 提出 [CACM 11(1968),491 
〜 493]; 给定 P + 1 条磁带和 S 个键码，把这些键码分成为 P 个子文件，每一个含 
LS / P 」 或 「 S / P 1 个键码，并递归地应用这个过程于每个子文件。当 S <2 P 时，一个 
子文件应仅由最小的键码所组成，而且它应被写到输出文件中 （ R . M . Kar P 的一般 
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先序构造包括这个方法作为其特殊情况， Karp 的方法岀现在 5.4.4 小节末尾）。 

向后读使合并稍微复杂化了，因为它颠倒了路段的次序。对于基数排序有相应 
的影 响：它 使得结果是稳定的或“不稳定的”取决于在树中达到什么级。在一个向后 
读的基数排序——其中某些外部节点在奇数级上，而某些在偶数级上——之后，具 
有相等键码的不同记录的相对次序，对于某些键码将和原始次序相同，但对于其它 

键码，则将和原来的次序相反(参见习题6)。 

振荡合 并排序也有它们在对偶意义下的配对物。在一个振 荡基数排序中 ，我们 
继续分开键码，直到达到仅有一个键码的子文件为止，或者直到子文件小到足以在 
内部进行排序为止。对这样的子文件排序并把它们写到输出磁带上，然后继续分下 
去。例如，如果有3条工作磁带和一条输出磁带，并且如果键码是二进制数，则我们 
可以开始把形如 “ Ox ” 的键码放在磁带 T 1 上，把键码 “ lx ” 放到 T 2 上。如果 T 1 接 
收一个以上的内存负载，则再次扫描它，并且置“00,到 T 2 上和 “ Oh ” 到 T 3 上。 
现在如果“00工”子文件短到足以在内部进行排序，则排序并输岀其结果，然后继续 
来处理“01工”子文件。这样一个方法被 E . H . Friend 称为“级联伪基数排序 ” [JACM 
3(1956) ，157〜 159] ; H . Nagler 进一步发展了这个方法 [/ACM 6(1959) ,459〜 468] ， 

他给它以精采的名称“两头蛇排序”。而 C . H . Gaudette 也发展了这一方法 
Tech . Disclosure Bull . 12( April , 1970), 1849 〜 1853] 0 

基数排序胜过合并吗？ 对偶性原理的一个重要结果是 基数排序通常都差于 
合并排序。 这是由于替代选择技术使合并排序具有一定的优势所致；没有明显的方 
式来安排基数排序，使得我们能利用同时处理一个以上内存负载的内部排序。确 
实，振荡基数排序将经常产生稍微小于一个内存负载的子文件，所以分布型式将对 
应于一株树，其外部节点较使用合并和替代选择时出现的外部节点多得多。因此， 
树的外部路径长度——即排序时间——就增加了（参见习题5.3.1-33)。 

另一方面，外部基数排序有其应用。例如，假设我们有一个包含某大公司所有 
职员名字的文件，名字以字母顺序出现；这个公司有10个部门，而且希望按部门来 
对文件进行排序，同时在每个部门中仍保留职员的字母顺序。如果文件很长，则这 
就是一个应用稳定的基数排序的理想情况，因为属于每个部门的记录数大概将多于 
通过替代选择产生的初始路段中所得到的记录个数。 一 般说来，如果键码的值范围 
如此之小，以致具有同一键码的记录集合相当内存大小的两倍以上，则使用一项基 

数排序技术是明智的。 

在 5.2.5 小节我们已经看到，在某些髙速计算机上，内部基数排序优于合并排 
序，因为基数排序算法的“内循环”避免了复杂的分支。如果外存特别快，则这样的 
机器不可能足够快地合并数据，以赶上输入输出设备。因此，可以证明在这种情况 
下基数排序优于合并，特别是，如果已知键码是一致地分布时。 

习题 


1.[20]在 5.4 节接近开始处，我们定义了具有参数 P ，1< P < 丁的一 般的了 条磁带的平衡 
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合并。证明其对应于一个使用一个混合基数系统的基数排序。 

2. [M28] 正文中说明了对于21个键码的3磁带多阶段基数排序。试把它推广到个键码 

的 情况； 说明在每个阶段的最后，什么键码出现在什么磁带上[提 示： 考虑斐波那契数系统，习题 

1.2.8-34] 0 

3.1M35] 把习题 2 的结果推广到 4 条磁带或更多磁带上的多阶段基数排序（参见习题 
5.4. HO) 0 

4. [Af23] 试证明， Ashenhurst 的分布型式是不向后读的、在 4 条磁带上对 10 个键码进行排 
序的最好方式，因为在所有“强 4-fifo 树”中，与这种型式相应的树有极小的外部路径长度（于是如 
果我们忽略重绕时间，则它实质上是最好的方法）。 

5. [15] 画出对应于10个键码的 Mauchly 向后读基数排序的 4-lifo 树。 

► 6. [20] 某个文件包含两位数字的键码00,01， …， 99 。 在执行了对于个位数字的 Mauchly 基 

数排序之后，交换 T 2 磁带和 T 4 磁带的作用，我们可以对十位数字重复同一方案。问在 T 2 磁带 
上键码最终将以什么次序出现？ 

7-121] 对偶性原理也适用于多卷文件吗？ 

*5.4.8 双磁带排序 

由于我们需要3条磁带来实现一个没有过多的磁带运动的合并过程，因此探索 
如何只用两条磁带就实现一个合理的外部排序是有趣的。 

H . B . Demuth 于1956年提岀的一个方法，是综合替代选择和冒泡排序的一种 
排序。假定输人在磁带 T 1 上，开始读 P + 1 个记录到内存中。现在输出其键码为 
最小的记录到磁带 T 2 上，并且代之以下一个输人记录。维护一个选择树或 P + 1 
个元素的优先队，可继续输岀当前内存中具最小键码的记录。当最终穷尽输人时， 
这个文件的最大的 P 个键码将出现在内 存中； 以递增次序输出它们。现在重绕这 
两条磁带并且通过从 T 2 读和向 T 1 写来重复这个 过程； 每趟这样的扫描，都至少安 
排好又一组 P 个记录到它们的适当位置。程序中可加进一个简单的检验，以确定 
整个文件何时排好序。最多需要 「（ N -1)/ Pl 趟扫描。 

稍经考虑后表明，这个过程的每一趟扫描，实际上就等价于冒泡排序（算法 
5.2.2 B ) 的 P 趟连续扫描。如果一个元素有 P 个或更多的反序，则当它输人时，它 
将比树中的一切都小，所以它将立即被输出（因此失去 P 个反 序）。 如果一个元素 
有少于 P 个反序，则它将进人到选择树中，而且将在所有比它大的键码之前先被输 
出——由此失去它的全部反序。当 P = 1 时，由定理 5.2. 21，这恰是冒泡排序的情 

况。 

因此扫描的总趟数将是「 J / P ]， 其中 J 是各元素反序的极大个数，按 5.2.2 节中 

发展的理论， J 的平均值为〜-^]^ + 2/3+0(1//^)。 

如果文件不比内存容量大很多，或者它几乎一开始就是排好序的，则这个 p 阶 
的冒泡排序将是相当 快的； 事实上，甚至当有额外的磁带机可利用时，使用它也可能 
是更有利的，因为空白带还必须要由一个操作员来安装。但是，两磁带冒泡排序对 
相当长的随机排序文件，将运行得十分慢，因为它的运行时间近似于同 iV 2 成比例。 

让我们来看看对于 5.4.6 小节的100 000个记录的例子，这个方法如何实现? 
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我们需要明智地选择 P ， 以便补偿同时进行读、写和计算时的块间间隔。由于这个 
例子假定每个记录的长度是100个字符，有100 000个字符将填入内存，故可以通过 

置 

100 (P + 1) + 4 B = 100 000 (1) 

为大小为 B 的两个输入缓冲区和两个输出缓冲区提供位置。利用 5.4.6 小节的符 

号，每趟扫描的运行时间将大约是 

NCcoril + p) , a) = (B y)/B ⑵ 

由于扫描数同 P 成反比，我们需要选择 B 为 100 的倍数，它把量 WP 极小化。初 

等微积分说明，当 B 近似于724975/ + 7 2 - 7时出现极小，所以我们取 B =3000, 
P = 879。 在上述公式中置 iV = 100 000,就看出扫描的次数「 J / P 1 将大约是114,而总 
共的运行时间将近似于 8.57 h (为方便起见，假定初始输入和最后的输出也是 B == 
3000)。这大约相当于满卷数据的 0.44 倍； 一个满卷将大约有5倍之长。如果周期 
地中断算法的运行，把有最大键码的记录写到一条辅助磁带上并把它卸下，那么我 
们可做某些改进，因为一旦这样一些记录已按顺序放置了，所需要的只不过是向前 

和向后拷贝它们罢了。 

快速排序的应用 另一个以近乎顺序的方式遍历数据的内部排序方法是分划 
交换或快速排序过程算法 5.2.2 Q ， 我们能否使它适应两条磁带呢 [ N . B . Yoash ， 
CACM 8(1965),649]? 

利用向后读，即不难看到这可以如何完成。假设把两条磁带编号为0和1,而且 
想像文件的安排如下： 


磁带0 磁带1 



f 1 (翊萨）灑萨 


?W 


每一条磁带用作一个栈;把它们像这样放在一起，就有可能把文件看做一个线性表， 
其中，通过从一个栈拷贝到另一个栈，我们可以左右移动当前的位置。下列的递归 

子例程定义了一个适当的排序过程： 

•SORTOO [对磁带0顶部的子文件排序，并且把它记回到磁带0上] 

如果这个子文件在内存中放得下，则对它内部排序并把它返回磁带上。否则就 

从这个子文件选择一个记录尺，令它的键码为 K 。 在磁带0上向后读，拷贝其键码 

> K 的所有记录，在磁带1的顶部形成一个新的子文件。现在在磁带0上向前读， 

拷贝其键码= K 的所有记录到磁带1上。然后再次向后读，把键码<尺的所有记 

录拷贝到磁带1上。通过对于<尺的键码执行 SORT 10 而完成排序，然后把 = K 

的键码拷贝到磁带0上，最后对于> K 的键码执行 SORT 10。 

• SORT 01 [对磁带0顶部的子文件排序并把它写到磁带1上]和 SORTOO —样， 
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但是最后的 “SORT10” 改为 “S0RT11”, 之后紧接着拷贝<尺的键码到磁带 1 上。 

•SORT10 [对磁带 1 顶部的子文件排序并把它写到磁带 0 上]和 SORT01 — 

样，只是交换0和1，以及交换<和>。 

•SORT11 [对磁带 1 顶部的子文件排序并且把它送回到磁带 1 上]和 
SORTOO —样，交换 0 和 1 以及交换<和>。 

这些子例程的递归性，可以毫无困难地通过在磁带上存放适当的控制信息，来 

加以处理。 

如果我们假定数据是按随机次序排列的，同时有相同键码的概率可予忽略，则 
对这个算法的运行时间可估计如下：设 M 是装满内部内存的记录个数，令是当 

N > M 时在应用 SORTOO 或 SORT11 于 /V 个记录的一个子文件时所平均读的记录 
个数，令是对于 SORT01 或 SORT10 对应的量，于是我们有 

0 如果 N < M 

Xn ='3N + 1 + ^2 0 O < n ( Y 々+ 如果 N>M 

0 如果 (3) 

Yn = [3N + 2+ + 足 V—h + 々）如果 iV > M 

这些递推式的解（见习题 2) 表明，当 IV — 〜时，在外部分划阶段期间读磁带的 


总数量，平均说来，将是6 0( iVh 从等式 5.2.2-(25) 我们还知道，内部 

排序阶段的平均数将是 2 (N + l)/(M + 2)- l 0 

如果把这一分析应用于 5.4.6 小节的100 000记录的例子，并且利用25 000个 

字符的缓冲区，以及假定对于 n<M = 1000个记录的一个子文件，排序时间是 

，则我们得到近似于 103 min 的平均排序时间（如同图表 A 中那样包括最后的 
重绕时间）。这样快速排序方法平均说来还不坏，当然，它的最坏情况证明甚至比上 
面讨论过的冒泡排序更为糟糕！ 


基数排序 基数交换方法(算法 5.2.2 R ) 可以以类似的方式适用于两条磁带的排序， 
因为它很像快速排序。使这两种方法都有效的“技巧”，是不止一次地读一个文件的思 

想，这是我们以前的磁带算法所从未做过的。 

同样的技巧亦可应用于在两条磁带上进行一种通常的“首先比较最低位有效数 
字”的基数排序。给定磁带 T 1 上的输人数据，我们把所有其键码在二进制符号下以 
0 结尾的记录_拷贝到 T2 上； 然后在重绕 T1 之后，再次读它，同时拷贝其键码以 1 
结尾的记录。&在两条磁带都被重绕，而且做类似的一对扫描，并且交换 T1 和 T2 
的作用，并使用第二个最低位有效二进制数字。这时， T 1 将包含其键码为 （•••OOh 

的所有记录，紧接着是其键码为 （一01)2 的，然后是键码为（…10) 2 的，然后是 

(•••11) 2 的。如果键码是6位长，则为了完成这个排序，我们仅仅需要对文件进行 

2 b 次扫描。 
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对于某些审慎地选择的数6,这样一种基数排序可仅应用于键码前面的 6 位; 

如果键码是一致地分布的，这将使反序的个数减少大约2 6 的一个因子，所以可以用 

较少次扫描的 P 路冒泡排序来完成这一作业。这一方法仅以向前的方向读磁带。 

A . I . Nikitin 和 L . I . Sholmov [Kibernetika 2,6(1966) ，79〜 84] 提出 了对于两条 

磁带分布排序的一个新颖但稍更复杂的方法。计算其前几位为各种可能组合的键 
码的个数，并根据这些计数构造人为的键码…， / c M ， 使得对于每个 i ， 位于 

和& + 1 之间的实际键码的个数，是在预先确定的极限匕和 P 2 之间。于是， iVT 位于 

「 N / P 2 1 和 「 N / PJ 之间。如果前几位的计数未给出充分的信息以确定这样的 Kl ,/ C 2, 

…， k m ，就再进行一次或更多次的扫描，以便对于某些最高有效位的组合，算出各种 

较低有效位型式的出现频率。在构造了人为的键码& ，& ，…，的表之后 ，2 「lgMl 

次进一步的扫描足以来完成这个排序（这个方法要求同 N 成比例的存储空间，所以 
当 iV - oo 时它不能用于外部排序。实际上我们将不对多卷文件使用此技术，所以 
M 将总是比较小的，而且人为的键码一定能从容地存入内存）。 


更多磁带的模拟 F . C . Hennie 和 R . E . Steams 想出了仅在两条磁带上模拟々 

条磁带的一般技术，其方法是，所需要的磁带运动仅以 O ( logL ) 的一个因子增加，其 
中 L 是在任一条磁带上遍历的极大距离 [/ACM 13(1966),533 〜546]。他们的构 

造，如同 R . M . Karp 所提出的下列方法那样，在排序的情况下，可稍做简化。 

利用两条磁带 T 1 和 T 2, 我们来模拟一个通常的4条磁带的平衡合并。首先， 
T 1 用来保存被模拟的磁带的内容，其方式由图86 给出； 我们想像，对于每一条被模 
拟的磁带，数据写到4个“磁道”上（事实上，磁带没有这样的“磁道”，块1，5,9，13,… 
被想像为磁道1，而块2,6，10，14，+被想像为磁道2，等等）。另一条磁带 T 2, 仅用 
作辅助存储，以帮助丁 1移动其数据。 


磁道 1 

磁道 2 
磁道 3 

磁道 4 


区域 0 区域 1 区域 2 


区域 3 



图 86 在 Hen nie-St earns 构造中磁带 1 的安排，非空白的区域磁带有阴影 

每个磁道的块组成一些区域，每个区域分别包含1，2,4,8,…，…个块，在每 
个磁道上的区域 I 或者正好装满 V 个数据块，或者完全是空白。例如，在图86中, 
磁道1在区域1和3中有 数据; 磁道2在区域0,1,2有 数据； 磁道3在区域0和2; 
磁道4在区域1;其余的区域都是空白。 

假设我们正从磁道1和磁道2把数据合并到磁道3。计算机的内存中有两个缓 
冲区用于两路合并的输入，加上第三个缓冲区用作输出。当磁道1的输入缓冲区变 
空时，我们可以按如下方式重新填满它•.找出磁道1上第一个非空的区域，比如说， 
区域 I 拷贝它的第一个块到输入缓 冲区； 然后拷贝其它 -1 个块的数据到 T 2 
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上,并把它们移动到磁道1的区域0，1 ，… A -1( 区域0,1 ,… A -1 现在被填满而区 
域々是空白 h 每当磁道2的输入缓冲区变空时，一个类似的过程用来重新填满磁 
道2的输入缓冲区。当输出缓冲区准备好要写到磁道3时，我们颠倒这一过程，扫 
描整个 T 1 以找岀磁道3上的第一个空白区域，比如说区域々，同时从区域0,1,…， 
是-1拷贝数据到 T 2 上。由输出缓冲区的内容加以扩充的 T 2 上的数据，现在用来 
填满磁道3的区域是。 

这一过程要求有能力写到磁带1的中间，而不破坏该磁带上随后的信息，如同 
向前读振荡排序的情况 (5.4. 5小节)那样。如果采用适当的预防措施，就有可能可 
靠地做到这一点。 

为把磁道1的 - 1个块送进内存，所需要的磁带运动的数量是 

2 0< k < l 2 l ~ l ^ k - c -2 k = cl 2 l ~\ c 是某个常数，因为在每 V 步中我们只扫描到区域々 

一 次。于是，每趟合并扫描需要 O ( NlogN ) 步。由于在平衡合并中有 O ( logiV ) 趟 
扫描，故最坏情况下的完全排序时间肯定是 0(] V ( logN ) 2 ) ; 这在渐近意义下比快速 
排序的最坏情况好得多。 

但是,如果我们把这个方法应用到 5.4.6 小节的100 000个记录的例子上，它实 
际上并不是非常好的，因为送往磁带1的信息将超出一卷磁带的内容。即使忽略这 
一事实，而且即使使用关于读/写/计算重叠以及块间间隔长度等最乐观的假定，我们 
会发现，为完成这一排序，仍将需要大约 37 h ! 所以这个方法只有纯学术的 意义； 当 
N 是在一个实用的范围时， 0(] V ( logiV ) 2 ) 中的常数太大了，不能令人满意。 

一条磁带排序 我们能否只用一条磁带呢？不难看出，上面描述的 P 阶冒泡 
排序能转化成一条磁带的排序，但结果可能是极坏的。 

H . B . Demuth [ Ph . D . thesis (Stanford University , 1956)，85] 发现，具有有限内存 

的一台计算机，当它在磁带上运动有限距离时，它所能减少的一个排列的反序个数， 
不多于一个有限的数量。因此每个单磁带的排序算法，平均说来至少必须花费 
N 2 d 个时间单位(其中^为某个依赖于计算机的配置正的常数）。 

R . M.Karp 以一种非常有趣的方式研究了这个课题，并且发现用一条磁带进行 
排序的一 个最优 方式。要讨论 Karp 的算法，最好把这个问题改变如下 ：利用 单部电 
梯在各楼层之间运送人们的最快方法是什么 [参见由 Randall Rustin 主编的 Combi - 
natorial Algorithms ( Algorithmics Press , 1972) ,17 〜 21]? 

考虑一个 n 层的建筑物，每层上的房间刚好可住 6 个人。这个建筑物没有门、 
窗、楼梯，但它有可以停于每层上的电梯。在建筑物中有以个人，在每个特定的楼 
层恰好有6个人要去。电梯至多能容 m 个人，而且它从第 f 层到第 f + 1层要花费 
一 个时间单位。如果要求电梯在第一层开始和结束的话，我们希望找出使所有的人 
都到达适当层的最快方法。 

不难看出这个电梯问题和单磁带排序问题之间的联系：人是记录而建筑物是磁 
带，楼层是磁带上个别的块，而电梯是计算机的内存。一个计算机的程序比一个电 
梯操作员有更多的灵活性（例如，它可以对人们复制或暂时把他们分成不同层上的 
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两部分，等 等）； 但下列的解法不必做这样的操作，而以能想像到的最快时间来解决 
这个问题。 

Karp 的算法需要下列两张辅 助表： 

u k , 在< 々的层上其目的地 > 々的人数 

d k ， 1 < ^ < 72 ：在> A 的层上其目的地 < 々的人数 V ； 

当电梯空时，对于 l <々< n ， 我们总有％ = 4 + 1 ，因为在每层上有6 个人； 在丨1，…, 

M 层上等待乘电梯的人数，必须等于在 U + 1，…， n 丨上相应的人数。由定义，、二 

d 1 = 0 0 

显然，对于电梯至少必须进行「~/爪1次从层々到层々+ 1的运行，因 
为仅772个乘客可以在每次运行中上楼。类似地，它必须至少进行 「々/ ml 次从第々 

层到 A -1 层的运行，因此对于任何正确的调度，电梯至少需花费 

n 

2 (r uj m 1 [+ \ d k jm ^) (5) 

个时间单位。 Karp 发现，当，…，〜-时，这个下限实际上可以达到。 

定理 K 如果对于 1 <： k < n ， u k > Q ， 则存在一个电梯调度，它在极小时间 （5) 
之下载运每一个人到他的目的地。 

证明假定在建筑物中有额外的 m 个人； 他们开始在电梯中，并且他们的目标 
层人为地置成0。电梯可以按照下列算法来进行操作，以 H 当前的层）等于1 开始: 



图 87 K ar p 的电梯算法 

K 1. [上行]请当前在电梯中或 在第々 层上的6 + 772个人中，有最大目的地的 

那 m 个人上电梯，而其余的人留在6层上。 

设现在电梯上有 W 个人的目的地>1另外 d 个人的目的地< 々（结果将是 
u = min ( m ，％ ) ;如果％ < ，则可能要运送某些人离开他们的目的地。 

这表示他们为整体利益作岀牺 牲）。 减《，< + 1 加而后 々加 1。 

K 2 .[仍然往上？]如果~>0,则返回步骤 K 1。 

K 3. [下行]请当前在电梯 或在々 层的6+ m 个人当中，那些具有最小目的地 

的人进电梯，而其余的停留在々层上。 

设现在电梯中有 u 个人的目的地>々，另外 d 个人的目的地<以结果将总 
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是 w =0 和 d = m ，但这里所述的算法仍用一般的 w 和 ( i 来描述，为的是 
要使证明更清楚些）。4减^，、”加 W , 而后々减1。 

K 4. [仍然往下？]如果々>1和％^>0,则返回步骤 K 3。 如果6 = 1和〜=0 

则此算法结束（每个人已经安全到达他的目的地，而 m 个“额外者”也回到 
电梯中）。否则返回到步骤 K 2。 

图88示出此算法的一个例子，这是一座9层建筑物且 b =2 ，c = 3。 注意，尽管 
电梯走的是最小的距离，6人中仍有1人被暂时送到第7层。在步骤 K 4 中测试 

的思想，如同我们将见到的那样，是本算法的关键。 


层9: - 45 
层8: — 25 
层7: - 19 
层6: — 24 
层5: — 89 
层4: -78 
层3: - 13 

层2: — 67 
层 1: _ 36 
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— ^-99 
899 458 
/ 25-\-58 
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122 
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^23 



33 


667 


112 123 122 


f 03 


Voi—V22 


036 


Oil 


f 00 



11 - 


000 

I 

开始 

图 88 利用一个小的缓慢的电梯来重新安排人们的最佳方式 

(每个人以他的目的层号来表示） 


000 


结束 


为了证明这个算法的正确性，我们注意，如果我们认为在电梯里的人是在“当 
前”层々上，则步骤 K 1 和 K 3 总是保持 W 和 d 表 （4) 的内容是最新的。现在有可能 
用归纳法证明下列性质在每个步骤的开始时均 成立： 


U l 

~ 4 十 1 

对于 A <1 < n 

(6) 

u t 

= d i + i - m 

对于 1< Z < 々 

(7) 

Z + l 

=0 

如果 w / = 0 和 n 

(8) 


进而，在步骤 K 1 的开始，在层上且目的地 >6的所有人当中，具有最高目的地 
的 min (~， m ) 个人，是在电梯中或在6层上。在步骤 K 3 的开始，在层且目的 

地<6的所有人当中，具有最低目的地的 minUy / n ) 个人，是在电梯中或在々层 


从这些性质得出，步骤 K 1 和 K 3 中括号内的注释是正确的。因此，步骤 K 1 的 
每一次执行都使 「~/ m 1 减少1，而保持 「4 + 1 / m 1 不变； 步骤 K 3 的每次执行都使 
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r d k \ m ] 减少1，而保持「 Wn / ml 不变。因此这个算法必定在有限步之内结束，而且 
每个人由于 （6) 和（8)，必然处于正确的楼层上。 ■ 

当~ = 0和％ + 1 >0时，我们有一个“断开”的 状态； 尽管没有人要从<々的层 

上升到1的层，电梯还是必须升到々+ 1层以便重新安排那儿的人。不失一般 
性，我们可以假定 iM ); 于是每个正确的电梯调度都必须至少包括 

2 ^ max ( l , T u k lm ~\) (9) 

\^k<n 

次移动，因为我们要求电梯返回到层1。达到这一下限的调度是容易构造出来的 
(习题4)。 


习题 

1. [20]正文中讨论的 P 阶冒泡排序，仅仅使用向前读和重绕。能否把这个算法修改成利用 
向后读？ 

2. [ M 26] 求出在 （3) 中定义的数 X n ， Y n 的明显的“封闭形式”的解[提示：分析等式 5.2.2- 
(19) 的解]。 

3. [38] 是否有仅仅基于键码（不是数字性质的）比较的两条磁带的排序方法，当对 N 个记录 
进行排序时，它的磁带运动在最坏的情况下为 ◦( NlogN ) [快速排序平均可达到这一点，但在最 
坏情况下不行，而 Hermie - Steams 方法（图 86) 则达到 O ( NlogiV ) 2 )]? 

4. [ M 23] 在电梯问题中，假设有下标和且+ 以及 1 

\_i = 0。 说明怎样构造至多需要 （9) 时间单位的一个调度。 

V 5.[ M 23] 真或假 ：定理 K 中，在算法的步骤 K 1 之后，电梯中人的目的地均髙于楼层< 是的 
所有人的目的地。 

6. [ M 30] ( R . M . Karp ) 把电梯问题（图 88) 推广到下列情形：对于< n ，开始时在层 
上有乂个乘客，以及有6彳个乘客其目的地是层。证明存在一个调度，它花费 22 r 1 1 max(i ^ 

J J k~ I 

_ u k l d k+l l mV ) 个时间单位，且在任何时刻绝不允许在层）上有多于， 〆 )个乘客[提 

示：如 果必要，引进虚构的人，使得对于所有的 J . b ^ b^o 

7. [ M 40] ( R . M . Karp ) 推广习题6的问题，用一个客车通过的磁道路网络来代替电梯所遵 
循的线性通路，其中假定该网络形成任意的自由树。这个客车容量有限，而且所希望的是，客车只 

行驶最小的距离，就把旅客运送到他们的目的地。 

5 . [ M 32] 设正文所讨论的电梯问题中，6二1。问 rz 层上的”个人有多少种排列，使得在 （4) 
中，对于有[例如，3 1 4 5 9 2 6 8 7就是一种这样的排列]? 

► 9. [ M 25] 找出 5.2.2 小节中图16描述的“鸡尾混合排序”和在 b - 1时 （4) 的数 Wl ， w 2 ，…， 
之间的重要联系。 

10. [20] 如何仅用两条磁带来对多卷文件排序？ 


*5.4.9 磁盘和磁鼓 

前面我们一直把磁带作为外部排序的工具，但是通常还有更为灵活的大容量存 
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储设备可用。尽管这样的“海量存储”或者“直接存取存储”设备形式五花八门，但它 
们可以粗略地以如下一些性质来 表征： 

0被存储信息的任何特定部分都可快速地访问。 
ii ) 在内存和外存之间可以迅速地传输连续的字块。 

磁带满足 ii ) 但不满足0,因为它要花费较长时间来从磁带的一端达到另一端。 

在对一种外部存储编写大量程序之前，都应当仔细地研究它具有的一些特性。 

但是技术的变化如此迅速，以致在这里不可能对所有可利用的形形色色的硬件进行 

完备的讨论。因此，我们将仅仅考虑某些典型的存储设备，这些设备展示了对于排 
序问题有用的方法。 

满足0和 ii ) 的最普遍的外部存储类 
型之一，为一个磁盘设备（见图89)。数据 
被存放在一些急速转动的圆磁盘上，这些 
圆磁盘上涂了磁性 材料； 一个像梳子样的 
存取臂对于每个磁盘面包含一个或多个 
“读/写头”，它用来存储和检索信息。每个 
磁盘面分成称做为磁道的同心的环，使得 
每当这个磁盘完成一次转动时，整个磁道 
的数据就通过一次读/写头。存取臂可以 
伸进和伸出，从一个磁道到另一个磁道地 
移动读/ 写头； 但这种运动花费时间。可以 图 89 —个磁盘机 

不必重新定位存取臂就能读或写的一组磁 

道，称为一个 柱面。 例如，图89示出了一个磁盘设备，它的每个平面恰有一个读/写 
头； 虚圆圈表示一个柱面，它由当前正被读/写头扫描的所有磁道所组成。 

为了叙述得更确切一点儿，我们考虑假想的 MIXTEC 磁盘组设备，对于它 

1个磁道=5000个字符 
1 个柱面 =20个磁道 
1 个磁盘设备= 200 个柱面 

这样一个磁盘设备含有2千万个字符，略少于一条 MIXT 磁带上所能存储的数据量。 
在某些机器上，接近中心的磁道的字符比接近边缘的磁道 要少； 这势必使程序设计 
更为复杂，幸而， MIXTEC 避免了这样的问题(参见 5.4.6 小节关于 MIXT 磁带的讨论。 

如同在该小节那样，我们通过考虑对20世纪70年代早期来说典型的那些机器特 
征，来研究典型的 技术； 现代的磁盘要大得多，也快得多）。 

在一个磁盘设备上为读和写所需要的时间实质上是3个量 之和： 

•寻道时间（为把存取臂移动到适当的柱面所需时间）。 

•等待时间（读/写头到达正确位置之前的转动延迟）。 

•传输时间（数据通过读/写头时的转动延迟）。 

在 MIXTEC 设备上为从柱面 z 转移到柱面 j 所需要的寻道时间为25 +备 U - j | 

2 
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mso 如果 i 和 j 是在1和200之间随机选择的整数，则 \ i ~ j \ 的平均值为 2(〗 G1 )/ 
200 2 〜 66.7, 所以平均寻道时间大约是 60 ms。MIXTEC 磁盘每 25 ms 转动一圈，所以 

等待时间平均约12 .5 ms 。 7?个字符的传输时间是 （ n /5000) X 25 ms = 5 nmsf 这大约 

是 5.4.6 小节的例子所用 MIXT 磁带的传输速度的3 I 倍)。 

因此，对于排序来说, MIXTEC 磁盘和 MIXT 磁带之间的主要差 别是： 

a ) 磁带仅可被顺序地 存取； 

b ) 个别的磁盘操作势必要求相当多的开销（寻道时间+相对于停止/启动时间 
的等待时 间）； 

c ) 磁盘传输速度比较快。 

通过使用更灵巧的磁带的合并型式，能够对缺点 a ) 做些补偿。我们现在的目标 
是考虑能补偿缺点 b ) 的某些灵巧的磁盘排序算法。 

克服等待时间 让我们首先考虑使延迟极小化的问题。延迟是由这样一个事 
实引起的，当启动一条输人输出指令时，磁盘往往并不在适当的位置上。我们不能 
使磁盘旋转得更快，但可以应用某些技巧，来减少甚至消除所有的等待时间。加上 
更多的存取臂显然是有帮助的，但这将是一个昂贵的硬件修改。下面是某些“软件” 
的 思想： 

1) 如果一次读或写同一个柱面的若干磁道，则我们就避免了除了第一次以外所 
有磁道上的等待时间 （以及 寻道时间）。 一 般地说，通常都有可能以这样一种方式来 
同步计算时间和磁盘运动的时间，即可以无须等待延迟而执行一系列的输人输出指 
令。 

2) 考虑读半个数据磁道的问题(见图 90): 如果当磁头在点 A 时开始读命令，则 
没有等待延迟，因而用于读的总时间恰是传输时间 jx 25 ms 。 如果当磁头在点 B 


时开始这命令，则我们需要转 | 圈以用于等待和转 I 圈用于传输，总共 25 ms 。 
当第一开始位于 C 时出现最有趣的情 况：通 过适当的硬件和软件，我们不需要浪费 


| ■的转动用于等待延迟。立即可开始读，读到输 

人缓冲区的第 二半； 然后在+ x 25 ms 的中止之 

后，可以继续读到这个缓冲区的头一半，于是当 
再次到达轴 C 时，指令已告完成。以一种类似的 
方式，我们可以确保总共的等待+传送时间决不 
超过转一圈的时间，而不管磁盘的初始位置如 
何。通过这个方案减少了平均等待延迟时间，如 
果我们正在读或写一个磁道的指定部分： r 时 



时间的分析 
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(0<工<1),可由延迟半圈减少到延迟 ^ ~(i - 1 2 )圈。当正在读或写整个一个磁道 

U = 1 ) 时，这个技术消除了所有等待时间。 

磁鼓： 无寻道的情况 某些外部存储设备，传统上称为磁鼓存储，由于对每个磁 
道都有一个读/写头，从而消除了寻道时间。如果图90的技术被应用到这样的设备 
上，则寻道时间和等待时间都将减少为0,其中假定我们总是一次读或写一个 磁道; 
这时传输时间是惟一的限制因素，这是一种理想情况。 

让我们再次考虑 5.4.6 小节的应用实例，用有100 000个字符的内存对100 000 
个每个有100个字符的记录排序。有待排序的数据总量填满了一个 MIXTEC 盘的一 
半。通常不可能同时在单个磁盘设备上进行读 和写； 我们将假定有两个磁盘可以利 
用，使得读和写可以彼此重叠。事实上，暂时我们将假定“磁盘”实际上是磁鼓，它包 
含4000个每个含5000个字符的磁道，而且不需要寻道时间。 

应使用什么排序算法呢？合并的方法是一个相当自然的选择，内部排序的其它 
方法不见得更利于在磁盘上实现， 5.2.5 小节的基数技术除外。但是 5 . 4.7 小节的 
考虑表明，对于一般应用，基数排序通常比合并要低劣，因为该小节的对偶性定理既 
可应用于磁带，也可应用于磁盘。然而，基数排序在键码为一致分布的，以及在可以 
并行地使用磁盘时确实有很大的优点，因为通过键码的最高有效位的初始分布，将 

把工作分成为不需要进行进一步通信的一些独立的子程序（例如，参见1(：.八 § 訂〜- 
aUSIGMOD . Record 25 ，2( Junel 996) ,240〜 246) 。 

在以下的讨论中，我们将专注于合并排序。 

为了开始对上述问题的一个合并排序，我们可以使用替代选择，用两个5000个 
字符的输入缓冲区和两个5000字符的输出缓冲区。事实上，如果用从选择树来的 
记录代替当前输入缓冲区中的记录，则有可能把上述缓冲区减少为3个5000字符 
的缓冲区。这把85000个字符 (850 个记录）送到一株选择树，所以对于我们所例举 
数据的一次扫描将形成大约60个初始路段（见等式 5.4.6-(3)) 0 如果假定内部处 
理时间足够快，能赶上输入输出的速度，即每500@—个记录移动到输出缓冲区，则 
这次扫描仅仅花费大约 50 s 的时间。如果有待排序的输入出现在一条 MIXT 磁带 
上，而不是出现在一个磁鼓上，则这个扫描将慢一些，这是因磁带的速度所致。 

对于两个磁鼓和全磁道的读/写，不难看到，如果我们令 P 尽可能地大，则 P 路合 
并的总传输时间即为极小。可惜，我们不能对所有初始路段简单地做一个60路的合 
并，因为在内存中没有60个缓冲区空间（少于5000个字符的一个缓冲区将导致不必 
要的等待时间）。如果进行 P 路合并，把所有数据从一个磁鼓传输到另一个磁鼓，使得 
读和写重叠，则合并扫描的次数为 「 log P 60 l , 所以如果 8< P <59, 我们就可以在两次扫 

描中来完成这项工作。最小的这样的 P 减少了内部计算的量，所以我们选择 P = 如 
果已经形成65个初始路段,则将取 P = 9 0 如果已经形成了 82个或更多的初始路段， 
则将取 P = 10,但由于仅仅有18个输入缓冲区和2个输出缓冲区的空间，所以在合并 
期间将有挂起的可能性(见算法 5.4.6 F ); 在这样一种情况下，可能更宜于对一小部分 
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数据做部分的扫描，并且把初始路段的数目减到81或更少。 

在我们的假定之下，两个合并扫描都将花费大约 50s， 所以在这种理想的情况下 
完成整个的排序仅用 2.5min (加上用于簿记操作、初始化等等的几秒钟）。这比 
5.4.6 小节中所考虑的最好的6磁带排序快6 倍； 速度提高的原因是 ：改进 了外部/ 
内部传输速度（快 3.5 倍），更高阶的合并（我们不能做8路磁带合并，除非有9条或 
更多的磁带），以及输出仍保持在磁盘上（最后的重绕等不必要）。如果初始的输入 
和排序的输出要求在 MIXT 磁带上，而磁鼓仅用作合并，则相应的排序时间将大约为 
8 .2min 0 

如果仅仅有一个磁鼓可利用而不是两个，则输入输出时间将花费两倍之长，因 
为读和写必须分开来完成（事实上，输入输出操作将花费3倍时间，因为我们将冲掉 
初始的输入 数据； 在这样一种情况下，如果硬件不提供对已写信息的自动校验，则宜 
于在每一个写操作之后紧接着一个“向后读校验”操作，免得某些输入数据丢失以致 
无法检索）。但由于我们可以使用部分扫描的方法，此方法处理一部分数据记录的 
次数多于另一部分，因此就可以挽回一些时间上的损失。两个磁鼓的情况需要偶数 
次或奇数次地处理所有数据，但一个磁鼓的情况可以使用更一般的合并型式。 

我们在 5.4.4 小节就注意到，合并型式可以通过树来表示，而且对应于一个合 
并型式的传输时间同其树的外部路径长度成比例。只有某些树 （T-lifo 或者强 T-fi- 
fo) 可以用作有效的磁带合并型式，因为某些路段在进行合并过程中会掩蔽在一条 
磁带的中间。但是在 磁盘或磁鼓上，所有树都定义了可用的合并型式 ，只要它们内 

部节点的层次对于可利用的内部存储的大小来说，不是太大即可。 

因此，我们可以通过选择一株具有极小外部路径长度的树来使传输时间极小 
化，诸如一株完备的 P 叉树，这里 P 尽可能地大。由等式 5.4. 4-(9)，如果这样一株 

树有 S 个外部节点（叶），则它的外部路径长度等于 

gS_L(P 9 - S)/(P_1 )」 q = r logpS 1 (1) 

设计一个按照完备的 P 叉树型式来合并的算法，是特别容易的。例如，图91所 
示为 P = 3 ，s = 6 的情况。首先，如果必要的话，我们加上“虚拟路段”，使得 S 二1 
(modubP-1); 然后，按照 “-fifo” 的规则来组合路段，在每个阶段，把队列前 P 个 
“最老的”的路段合并成为一个路段，并把该路段放在后边。 


如果所有的初始路段都有相同的长度，则完备的 P 叉树给出一个最优的型式， 
但是如果某些路段比其余的长，则我们常常可以做得更好。这种一般情况的最优型 
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图91具有6片叶的完备三叉树及其相应的合并型式 








式，可以毫无困难地使用 Huffman 方法来加以构造（习题2.3.4.5-10)，它可以用合 
并的语言叙述如下 ：“首 先加上 （1 - S ) mod ( P - 1) 个长度为0的虚拟路段，然后反 
复地把 P 个 最短的 现存路段合并在一起，直到剩下一个路段为止。”当所有路段都 
有相同长度时，这个方法就归结为前面所述的 - fifo 规则。 

在100 000个记录的例子中，我们可以作九路合并，因为内存中可以放下18个 
输入缓冲区和两个输出缓冲区，而且算法 5.4.6 F 将重叠所有的计算时间。如果所 

有初始路段都有相同的长度，则完备的具有60片叶子的9叉树对应于具有1 _趟 

扫描的一个合并型式。因此，若在每次写之后使用向后读校验，则使用一个磁鼓的 
总排序时间，约等于 7.4 min 。 更高的 P 值可以稍稍减少这个运行 时间； 但当缓冲区 
变得太满或太空时，由于可能出现“读挂起”，因此情况就变得复杂了。 


寻道时间的影响 以上的讨论表明，对于磁鼓来构造“最优”合并型式是比较容 
易的，因为寻道时间和等待时间实际上都不存在。但当使用有小的缓冲的磁盘时， 
通常花费在寻找信息的时间比起读信息的时间要长，所以寻道时间对于排序策略有 
相当大的影响。减少合并的阶数 P ， 就可能使用更大的缓冲区，所以就需要较少的 
寻道时间；这通常能弥补较小的 P 值所引起的额外的传输时间。 

寻道时间同存取臂通过的距离有关，因此我们可以尝试把事情安排成使得这个 
距离成为极小。例如，首先在柱面内对记录排序可能是明智的。但是大型的合并往 
往要求在柱面之间作大量的跳跃（参见习题2)。其次，现代操作系统的多程序设计 
的能力意味着，用户正失去对磁盘存取臂的 控制； 因此，我们通常认为，假定每一个 
磁盘命令都包含一个“随机”的寻道是合理的。 

我们的目标是发现一个合并型 
式，它在寻道时间和传输时间之间实 
现最好的 平衡； 为此目的，需要某种 
方法，相对于一个特定的硬件配置来 
估计任何特定树的好坏。例如，考虑 
图92中 的树; 我们要评估为进行相应 
的合并它将花费多长时间，以便能把 
这株树同其它树作比较。 

在下面的讨论中，我们将对磁盘 



合并作某些简单的假定，以便说明某 
些一般的思想。假定为了读或者 
写 n 个字符要花费 72.5 + 0.005 nms ; 


图92外部路径长度为16 
而叉数路径长度为52的一株树 


( ii ) 内存中有 100 000 个字符的位置可用作工作 存储; （ iii ) 为把每个字符从输入传输到 
输出，需要平均 0.004 ms 的计算 时间； （ iv ) 在读、写或计算之间没有 重叠； （ v ) 用作输出 
的缓冲区大小不必和下次扫描时用作读数据的缓冲区大小一样。在这些简单假定之 
下对排序问题的分析，将为我们转向更复杂的情况提供某些启示。 
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如果进行一个 P 路合并，则我们可以把内部工作存储分成为 P + 1 个缓冲区 
域， P 个作为输人和 1 个作为输出，而每个缓冲区都有 B = 100 000 /(P + l ) 个字符。 
假定正在合并的文件总共包含 L 个 字符； 于是我们将做近似于 L / B 个输出操作和 
大约相同数量的输人操作，所以在我们的假定之下总共的合并时间将近似于 

2(72_5 # + 0.005 L j + 0.004 L = (0.00145 P + 0.01545) L ms (2) 

换言之， L 个字符的 P 路合并将花费大约 + 个单位时间，其中 a ， p 为 
依赖于寻道时间、等待时间、计算时间以及内存大小的常数。这个公式导致了一个 
有趣的、构造一个好的磁盘合并型式的方法。例如，考虑图92,并假定所有的初始 
路段（以正方形“叶”节点表示）长度都为 L G ， 则在节点9和10处的合并各需花费 

+ 个单位时间，在节点11处的合并花费（3« + ^)(41^) 个，在节点12 

的最后合并花费 （4 a + /3)(81^)个。因此，总共的合并时间为（52« + 160) Lo 单位。 

这里的系数“16”是我们所熟知的，它只不过是该树的外部路径长度。 然而， a 的系 

数“52”是一个新的概念，它可以称为树的叉数路径长度 （degree path length ); 它是对 
于所有叶节点取的从叶到根的通路上内部节点叉数的和。例如，在图92中，叉数路 
径长度为 


(2 + 4) + (2 + 4) + (3 + 4) + (2 + 3 + 4) + (2 + 3 + 4) 

+ (3 + 4) + (4) + (4) = 52 

如果 f 是任意树，则令 D (5)，£(5) 分别表示它的叉数路径长度和外部路径长 
度。我们的分析可以综述如下： 

定理 H 如果对于 L 个字符进行一个 P 路合并所需要的时间是 (aP + p ) L ， 且如 
果有 S 个等长路段有待合并，则最好的合并型式对应于在有 S 个叶的所有树中，使 
aD ( T ) +阳(£0为极小的一株树 

此定理隐含于一篇未发表的论文中 ， George U . Hubbard 在1963年的 ACM Na - 

tional Conference 上介绍过它。 

令《和^是固定的 常数； 如果一株树对于具有相同叶数的所有树 f 有极小的 
aD (5) + 阳(刃值，则我们说这株树是最优的。不难看出，一株最优树的所有子树是 
最优的。因此我们可以通过把具有<”片叶的最优树合在一起，构造出具有 n 片叶 

的最优树。 


定理 K 对于1 ,通过规则 

Ai(l) = 0 (3) 

A m (n) = min (Ai(k) + ( n - k)) 对于 (4) 

1 ^ nlm 

A\ (n) = min ( amn + /3n + A m (n)) 对于 (5) 

定义数 A m (n) 的序列。现在所有具有片叶的树 f 中， Ajn) 是 aD ⑼+ /?£：⑼的 
极小值。 
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证明等式 (4) 蕴涵着， A w (72) 是对于所有使得 ni + …+ 72^ = 72 的正整数、， 

… ，72 W ， 和式… + A 1 (/ Z W ) 的极小值。对 W 用归纳法即得结果。 ■ 

递归关系（3)， （4),(5) 也可用来构造最优树本 身:令 6 m (72) 是在 A w ( n ) 的定义 

中使极小值出现的一个值，则我们可以通过在根处加入 mzhU ) 个子树，构造具 
有72片叶子的一株最 优树； 这些子树又是分别具有 k m (n) 1 k m _ l (n- k m (n)), 

k m - 2 ( n ~ k m (n) - k m _ l (n ~ k m (n))) ，…片叶子的最优树。 

例如，表1说明了当 a = 卩=1时的这个构造。在该表的右边是对应的最优树的 
简单说明。例如，当 n = 22时，条目 “4:9:9”意味着，具有22片叶子的最优树％ 2 ，可 

以通过把％ 和％ 组合在一起来得到（见图93)。最优树不是惟 一的； 例如，5:8:9 
同 4 : 9:9 一样地好。 

对 (2) 的推导表明，当使用 P + 1 个相等的缓冲区域时，关系式总成立。 

当要求寻道时间极小化，而不考虑传输时间时，§卩出现表1和图93中的极限情况 a 

= 



10 

11 

12 


图93当在定理只中时，合并22个相等长度的初始路段的一种 
最优方式。在与正文中的等式 (2) 同样的假定之下，这个型式使寻道时间极小化 


表 1 


当 


a 



1 时最优树特征 A m (n),k m (n) 



r ■ 

1 

2 

3 

4 

5 

6 

0,0 






6,2 

0，1 





12,3 

6,1 

0,1 




20,4 

12,1 

6,1 

0,1 



30,5 

18,2 

12,1 

6,1 

0,1 


42,2 

24,3 

18,1 

12,1 

6,1 

0,1 

52,3 

32,3 

24,1 

18,1 

12,1 

6,1 

62,3 

40,4 

30,2 

24,1 

18,1 

12,1 

72,3 

50,4 

36,3 

30,1 

24,1 

18,1 

84,3 

60,5 

44,3 

36,1 

30,1 

24,1 

96,3 

72,4 

52,3 

42,2 

36,1 

30,1 

108,3 

82,4 

60,4 

48,3 

42,1 

36,1 


0,1 


10 


11 


6,1 

0,1 




12,1 

6,1 

0,1 



18,1 

12,1 

6,1 

0,1 


24,1 

18,1 

12,1 

6,1 

0,1 

30,1 

24,1 

18,1 

12,1 

6，1 


12 


树 


0，1 


1:1 

1 : 1:1 

3:3 


3:3 

3:3 

3:3 

3:4 

4:4 

4:4 


10 

11 

12 
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(续) 


1 2 3 4 5 6 7 8 9 10 11 12 树 


13 

121,4 

92,4 

70,4 

56,3 

48,1 

42,1 

36,1 

30,1 

24,1 

18,1 

12，1 

6，1 

3 

3:3 

4 

13 

14 

134,4 

102,5 

80,4 

64,3 

54,2 

48,1 

42,1 

36,1 

30,1 

24,1 

18,1 

12,1 

3 

3:4 

4 

14 

15 

147,4 

114,5 

90,4 

72,3 

60,3 

54,1 

48,1 

42,1 

36,1 

30,1 

24,1 

18,1 

3 

4:4 

4 

15 

16 

160,4 

124,7 

102,4 

80,4 

68,3 

60,1 

54,1 

48,1 

42,1 

36,1 

30,1 

24,1 

4 

4:4 

：4 

16 

17 

175,4 

134,8 

112,4 

90,4 

76,3 

66,2 

60,1 

54,1 

48,1 

42,1 

36,1 

30,1 

4 

4:4 

:5 

17 

18 

190,4 

144.9 

122,4 

100,4 

84,3 

72,3 

66,1 

60,1 

54,1 

48,1 

42,1 

36,1 

4 

4:5 

5 

18 

19 

205,4 

156,9 

132,5 

110,5 

92,3 

80,3 

72,1 

66,1 

60,1 

54,1 

48,1 

42,1 

4 

5:5 

5 

19 

20 

220,4 

168,9 

144,4 

120,5 

100,4 

88,3 

78,2 

72,1 

66,1 

60,1 

54,1 

48,1 

5 

5:5 

5 

20 

21 

236,5 

180,9 

154,4 

132,4 

110,4 

96,3 

84,3 

78,1 

72,1 

66,1 

60,1 

54,1 

4 : 4 : 4 : 4:5 

21 

22 

252 , 3192,10 

164,4 

142,4 

120,4 

104,3 

92,3 

84,1 

78,1 

72,1 

66,1 

60,1 

4 : 9:9 

22 

23 

266 , 3204,11 

174,5 

152,4 

130,4 

112,3 

100,3 

90,2 

84,1 

78,1 

72,1 

66,1 

5 : 9:9 

23 

24 

282 , 3216,12 

186,5 

162,5 

140,4 

120,4 

108,3 

96,3 

90,1 

84,1 

78,1 

72，1 

5 : 9:10 

24 

25 

296 , 3229,12 

196,7 

174,4 

150,5 

130,4 

116,3 

104,3 

96,1 

90 , 1 - 

84,1 

78,1 

7 : 9:9 

25 


回到最初的应用，我们尚未考虑如何首先得到初始的 路段； 如果没有读/写/计算 
的重叠，则替代选择就失去了它的某些优点。也许我们应该填满整个内存，然后排 
序并输出 结果； 每一个这样的输入和输出操作都只需要一次寻道。或者也许拿出比 
如说内存的20%作为一个综合的输入/输出缓冲区，并进行替代选择更好。这要求 
5倍的寻道时间（一个额外的 60 s 左右时间！），但它使初始路段的数目从100减少§1 
64;如果输入文件原来就是相当有序的，则减少就更为显著。 

如果我们决定不使用替代选择，则对于 S 二100, a = 0.00145,0 = 0.01545 的最 

优树[参见 (2)] 是相当平凡 的：它 只不过是对数据在两次扫描中完成的一个10路合 
并。如果允许对内部排序花费 30 s (比如说，100次快速排序），则初始分配扫描大约 
花费 2.5 min ， 每次合并扫描将近花费 5 min ， 总共是 12.4 min 。 如果我们决定使用替 
代选择，则对于 S = 64 的最优树也同样是平凡的（两个8路合并扫 描）； 初始分布扫 
描大约花费 3.5 min ， 每次合并扫描大约花费 4.5 min , 估计总共的时间为 12.6 min : 
别忘了，这两个方法实际上都放弃了所有的读/写/计算的重叠，为的是有更大的缓冲 
区，并减少寻道时间。这些估计的时间均未包括为向后读检验操作所可能需要的时 
间。 

实际上，最后的合并扫描与其它几次扫描往往十分 不同； 例如，输岀常常被展开 
和/或写到磁带上。在这种情况下，树型式应该利用在根处的另一种最优性准则来 
加以选择。 

# 对最优树的进一步考察 尽管实际情况参数通常满足但是考察定 
理 H 和 K 中的极端情况^ = 0是有趣的。具有/2片叶子的树什么样的有最小的叉 
数路径长度？奇怪的是，结果证明三路合并是最好的。 

定理 L 一 株具有 n 片叶子的树，其叉数路径长度决不小于 
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由下列规则 



/(72) 


= < 3qn+2(n-3” 
、3 qn + 4( n — 3 Q ) 


如果2 • 3 ?_1 < 72 <3 7 

如果3 9 < 72 <2 • 



( 6 ) 


(7) 


定义的三叉树乂有极小叉数路径长度。 

证明重要的是要注意 / U ) 是一个 凸函数 ，即 

f(n + 1) - f ( n ) ^ f ( n ) - f(n — 1) 对于所有 (8) 

这个性质的正确性由下列引理得出，而这个引理是习题 2.3.4.5-17 结果的对偶。 


引理 C. 在正整数上定义的一个函数 g(n ) 满足 

min (g(k) + g(n - k)) = g(Ln/2j) + g([ n/2^\) f n ^ 2 ⑼ 

当且仅当它是凸的。 

证明如果对于某个 n ^2 ，^*(72+1)-尽（/2)<足（冗）- g ( n - l )， 我们有 g( n 

+ 1) + ^"(72 _ 1)<^"(?2) + ^"(72)，同（9)相冲突。反之，如果对于尽， （8) 成立，而且如 
果 l(k< n -々，由凸性，我们有 g ■(是 + l ) + g ■(” - 々一 lXg (是） + g ( w _ 々）。 ■ 

引理 C 证明的后面部分可推广到任何 m > 2 以证明每当 g 为凸时 - 

min (g(ni) + •■- + g(n m )) = 

n• + ••• 十 n = n 
1 m 

n r'"' n m >l 

g(Lnl m ]) + g(\_(n + l)/m」）+ … + g(L ( n + m - 1 )/m }) ( 10) 

令 

f m (n) = + f(\_(n + + … + /(L ^ + ^ — 1)/ m \) (11) 

通过证明 / 3 ( n) + 3n = /( n) 以及对于所有 m ^2 , f m {n) + mn^f(n ) ，便完成了 
定理 L 的证明（见习题 11)。 I 


如果最优树总可以像在定理 L 中那样利落地表征，那将是非常好的。但在表1 
中对于 《 = p ， 我们已经看到的结果表明，函数 AiU ) 并不总是凸的。事实上，表1足 

以否定关于最优树的大多数简单的猜测！但是，在一般情况下我们可以部分地拯救 

定理 L ; M . Schlumberger 和 J . Vuillemin 已经证明，可以避免合并大的阶。 


定理 M . 如定理 H 中那样给定 a 和卢，存在一株最优树，其中每个节点的叉数 
至多为 


证明 


d(ct ， 


mini k 

k>i 



令 ^1 , n m 是使得 〜 + ••• + 



( 12 ) 


n m = + … + A ( n m ) = A m ( n ) 
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的正整数，且。另外假定+ 1 。令々是极小化 （12) 的值；我 
们将证明 

an{m ~ k ) -\- -\- A m - k ( n ) ^ anm + (3/2 + A m ( n ) (13) 

因此 (4) 中的极小值对于某个总是可达到的。 

由定义，由于我们必定有 

A m - k ( n ) 《 AJa + …+ n k+l ) + AiOw ) + …十 A l ( n m ) < 


a(ni + •■- + n k + l )(k + 1) + 〆 〜 + ••• + n k + i ) + ' 〆 〜）+ •••+ A “ 

( a(k + 1) + 夕 )（〜 + …+ n k+l ) + A m ( n ) ^ 


n 


{ a{k + 1) + j^)(k + l ) n/m + A m ( n ) 

因此现在容易得出 （13)( 仔细观察这个证明可发现，由于某些最优树一定有叉数为 

的节点，所以 （12) 可能是最 好的； 参见习题13)。 | 


对于 l < m < n < iV ， 定理 K 的构造需要 0( N 2 ) 个存储单元和 0( N 2 bgN ) 个 
步骤来计算 A m ( n ) 0 定理 M 表明仅仅需要 O ( N ) 个单元和 0( N 2 ) 个步骤。 

Schlumberger 和 Vuillemin 发现了最优树的一^些非常有趣的性质 [Acta Informatics 3 

(1973)，25〜36]。其次，如习题9所示，可以计算出 A a ( n ) 的渐近值。 


*分配缓冲区的另 一 种方式 David E . Ferguson[CACM 14 ( 1971 )，476 〜 478 ] 

指出，如果我们不把所有缓冲区都做成相同大小，则寻道时间即可减少。同样的思 
想大约同一时间也出现在其他人的文章中 [ S . J . Waters ， Cbmp . J . 14(1971),109- 

112 ; Ewing S _ Walker ， Software Age 4( Auguest - September , 1970), 16~ 17] 0 

假设我们正在对具有相等长度 L q 的路段进行四路合并，且内存可容纳 M 个字 

符。如果把内存划分成相同的缓冲区大 *B = M /5, 则对于每个输入文件需要大约 
L 0 lB 次寻道，对于输出需要 4 JU / B 次寻道，加起来为次寻道。但 

如果我们用4个大小为 M /6 的输人缓冲区和1个大小为 M /3 的输出缓冲区，则只 
需要大约 4X (6 Lo / M ) 十 4X (3 Lo / M ) =36 L g / M 次寻道！在两种情况下传输时间 

是相同的，所以由这个改动，我们并不受任何损失。 

一 般地说，假设要把长度为 L lf -, L P 的排序文件合并成为长度为!^ + 1 = 1^ + 

…+ L P 的一个排序文件，而且假定一个大小为私的缓冲区被用于第々个文件。于 


是有 


Bi + ••• + Bp + Bp+i — A4 
其中 M 是可利用的内存的总容量，寻道的次数将近似为 


(14) 




+ 


Lp 

+ B~p + 


L 


P+1 


B P 


十 l 


(15) 


现在让我们在条件 (14) 的约束下尝试使这个量极小化，为方便起见假定艮不必为 


整数。如果对马增加 S 而对私减少相同的小量，则寻道次数的改变为 



’ Lk _ Lj \ 

\B k (B k - « ~ + 8)1 
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所以如果4 /巧关这个分配就能改进。因此，仅当 



时我们得到极小的寻道次数。由于存在一个极小，因此当 


(16) 


B k = / LkMK / L , + …+ 」 Lp+1 ),1 <^<P + 1 (17) 

时它必定出现，因为这些是同时满足 （14) 和 （16) 的&，…， B P + 1 仅有的值。把 （17) 
值代入（15)，就给岀寻道总次数的相当简单的公式 


+ …十 /^ p 7 i) 2 /M (18) 

这可以和数（斤+ 1)0^ +…+ L P +1 )/ M 相比较，此数为在所有缓冲区的长度相等 
时得到的。由习题 1.2. 3-31，改进为 

S (/ T , ~/ L k ) 2 !M 

Kj<k^P+\ 

可惜的是，公式 （18) 并不像定理 K 中那样，易于利用公式 （18) 确定最优合并型式(参 
见习题14)。 


链接的使用 M . A . Goetz [CACM 6(1963),245-248] 提出了一个通过把个 
别的磁道链接在一起，来避免输岀时的寻道时间的有趣方法。他的思想要求一组相 
当特别的磁盘存储管理程序，而且除了排序之外，它还适用于许多问题。因此对于 
一 般的应用来说，它是一个非常有价值的技术。 

它的概念是简单的•.代替在磁盘的柱面内顺序地分配磁道，我们把它们链接在 
一起并且建立一个可用空间的表，每个柱面一个。当要输出一个磁道的信息时，我 
们把它写到当前的柱面上（无论存取臂在哪里），除非该柱面满了。这样一来，寻道 
时间就消失了。 

困难之处是在磁道本身我们不能存储对下个磁道的链接，因为所需的信息在当 
时并不知道（如果合适的话，我们可以存储一个对前一个磁道的链接，而且在下次扫 
描时向后读文件）。对于每个文件的磁道的链接地址表可以分别地维护，因为它需 
要比较少的空间。可利用空间表可以通过使用二进位表紧凑地表示，且以1000个 
二进位确定1000个磁道是否可用。 

修改的预报 算法 5.4.6 F 表明，通过考察每个缓冲区中最后的键码，我们可以 
预报一个 P 路合并的缓冲区哪一个将首先变空。因此我们可以同时读和计算。该 
算法使用浮动输入缓冲区，它们不是专门提供给一个特定的 文件； 所以这些缓冲区 
必须全都具有相同大小，而且不能使用上边介绍的缓冲区分配技术。但是对于一致 
的缓冲区大小的限制不是大的损失，因为现在的计算机较之以前有大得多的内部存 
储。现在常常提出一个自然的缓冲区大小，例如，整个磁道的容量作为缓冲区。 

因此想像把每个均由一数据块序列组成的 P 个路段合并在一起，其中每个块 
(或许最后一个除外），恰包含 B 个记录。 D . L . Whitlow 和 A . Sasson 提出了一个叫 
M SyncSort [ L 7. S.Patent 4210961 (1980)] 的有趣算法，通过只需要大小为 B 的3个 
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缓冲区和容纳 PB 个记录和 PB 个指针的一个存储池，它改进了算法 5.4.6 F 。 与之相 
对照，算法 5.4.6 F 需要 2 P 个输人缓冲区和2个输出缓冲区，但不需要指针缓冲区。 

把3个 SyncSort 缓冲区安排在一个圆周上，当合并进行时，计算机在当前的缓 
冲区中处理数据，同时把输入读到下一个缓冲区中，并从第三个缓冲区来写输岀。 
许多磁盘设备允许在同一柱面同时读和写。其实，磁盘合并允许我们写新的路段来 
代替我们正在读的路段。否则我们可以使用两个磁盘，一个用作读 ，一 个用作写。 
如果完全的读写同步是不可能的（例如，由于寻道时间的原因），我们也可以如 
14.4 小节中的图26所示，把这个圆周扩展成4个或者更多的缓冲区。 

SyncSon 通过读每个路段的第一个块开始，并把这个记录放进缓冲区池 
中。存储池中的每个记录被链接到它所属路段中的它的后继者，但每个块的最后一 
个记录没有后继者因而除外。在这些最后的记录中键码最小者确定将首先需要填 
满的路段，所以我们开始读该路段的第二个块。只要第二个块被读人，合并即 开始； 
通过考察它最后的键码，我们就能准确地预报下一个相关的块，而且我们可以以相 
同的方式预取恰好的块数来输入，而且恰在需要它们之前。 

SyncSort 合并算法交换当前缓冲区中的每个记录和输出的下个记录，即存储池 
中有最小键码的记录。当我们进行每一个交换时，也适当地更新选择树和后继者链 
接。 一 旦达到了当前缓冲区的末尾，我们就做好了转动缓冲区圆周的 准备： 输入缓 
冲区变成当前缓冲区，写缓冲区用作输人，而且我们开始从以前的当前缓冲区来写。 

使用多个磁盘 磁盘设备在大小和重量上曾经非常大，但在20世纪80年代 
后，它们明显变得越来越小、越来越轻和越来越廉价——而且比以前任何时候都能 
容纳更多的数据。因此，人们开始设计用于5个、10个或50个磁盘设备的、曾经是 
不可想像的磁盘丛组，甚至更大的磁盘群的算法。 

对于附加的磁盘要想提髙速度一个容易的方法是对大的文件使用磁 盘分片 
(disk striping ) 技术。假设我们有 D 个磁盘机，分别编号为0，1 ，…， D - 1，另外一个 
文件由 L 个块组成。把这个文件在 D 个磁盘上分片意味着把块~放 

在编号为 ； mod D 的磁盘上；于是磁盘0容纳 a 0 …，磁盘1容纳 o , l a D + ia 2 D^i 

…，等等。于是在 D 块群 aoaf • a D _ 1, + i … a2D - " …，我们可以同时实现 D 个 

读或写，这些块群称 做超块 （ superblock )。 每个超块中的独立的块应在不同磁盘上 
的对应柱面上，使得每个磁盘机的寻道时间是相同的。实际上，我们所做的就好像 
我们有一个磁盘，它具有大小为的块和缓冲区，不同的是，输人和输岀操作都快 

了乃倍。 

当我们进行两路合并时，或者一般地，每当我们要匹配以键码为序的两个文件 
中有相同键码的记录时，可以利用对于超块分片的一个很好的改进。假设第一个文 
件的块…像上面所述被分片到 D 个磁盘上，而另一个文件的块心心心…以 

相反的次序来分片，且块~在编号为 （ D - l - j ) mod D 的磁盘上。例如1) = 5,则 

块 A 分别出现在0，1，2,3,4,0,1，一的磁盘上，而对于 ； >0，块~出现在4,3,2，1， 

0,4,3,…的磁盘上。令~是块&最后的键码，而设爲是块~的最后的键码。通过 
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考察 a 和/?,我们可以预报我们将要读数据块的序列。例如，这个序列可能是 


当 D 


CL^boCi I ( 22^1 cl^cl^ ^ 5^6 CL? a 务 b^b $ b^bj bgbgb 

5 时，这些块分别出现在磁盘 

0 4 1 2 3 3 4 2 0 1 2 3 1 0 4 3 2 1 0 4 • 


• • • 


上，而且如果一次读其中的5个，则我们将逐次地从磁盘 |0,4，1，2,3 U 3,4,2,0, 
lU 2,3， l ,0,4 i ， i 3,2， l ，0,4 l …进行输入。这里绝不会有冲突岀现，即绝不会在同 
时间里要从同一个磁盘读两个记录！ 一 般地说，使用 D 个磁盘，我们可以无冲突 
地一次读 D 个块，因为对于某个々，第一个群 将有々 个块在 0 到々 - 1 的磁盘上，以 
及有 D ~ k 个块心 …知 —^在 D - 1 到々的磁盘上；因此我们将以同样的方式平稳 

地继续，但磁盘的编号由々来循环地移动。 

这个技巧是扑克牌魔术师们所熟知的，他们把它称做 Gilbreath 原理； 它是20 

世纪60年代由 Norman Gilbreath [参见 Martin Gardner , Mathematical Magic Show 
(New York ： Knopf , 1977), Chapter 7; N . Gilbreath,Genii 52(1989) ,743 — 744] 发明 

的。我们需要知道 a 和/?，来判定下次应读什么块，由于该信息仅占据 a 和6所需 
要的空间的一个很小比例，因此它可以被保存在独立的文件中。这样，为使输人全 
速进行，我们只需要较少的缓冲区即可（参见习题23)。 

随机分片 当 P 和 D 很大时，如果我们要用 D 个磁盘来进行 P 路合并，我们 
不可能同时从 D 个磁盘读信息而保持不冲突，除非我们有大量的缓冲区，因为当 P 
> 2 时，我们没有和 Gilbreath 原理相类似的东西。不管我们怎样分配一个文件的块 
到磁盘上去，都将会有这样的机会，就是在我们准备好使用许多块之前，可能需要把 
它们读入内存中，因为真正需要的这些块可能会碰巧驻留在相同的磁盘上。 

例如，假设我们要在5个磁盘上进行八路合并，并且假设8个路段的块 

…， 6 (^ 162 ‘"，_"，/ 10 人 1 /^"已经通过在 ） mod D 磁盘 上的七 ， （j + l)mod D 磁盘上 


的匕， 


■蠡# 


， G +7) mocLD 磁盘上的 / i , 来分片。我们可能需要以下列次序来访问这些块 


a 0 b 0 Cod 0 eo /o^o^o^i^i d 1 e 2 d 3> aifi bxg x a 1 f 1 e^ > d 4 c 1 h l b 2 g2 <23/3^4^5^6 


(19) 


于是它们就分别出现在下列磁盘上 

012340124001111222222333333334 

所以我们最好的办法是如下来输入它们 


_暑_ 


( 20 ) 


时间 1 


时间 2 


时间3 


时间4 


时间5 


a 0 ^ 0 c 0 ^ 0^0 foSo^O c 1 ^ 1 ^ 2^1 ^1 ^6 ^ 2 ? ? a 1 <^ 2^2 ? 



时间 

?/ l /2^3? 


时间7 


时间 8 
?7 d 4 e 4 ? 


时间9 
???^ 5 ? 


( 21 ) 


在我们有能力来考察块 A 时，我们需要已经读 A 以及由“？”所标记的15个未来数 


据的块，这是由于在磁盘3上的拥挤所致。而且，通过包含 



h，gi 和 



的剩余部分的7个缓冲区，我们还不能 完成; 所以在这个特定的例子里，我们还将 
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需要保存至少 （16 + 8 + 5) B 个输入记录的缓冲区空间。 

磁盘分片的简单超块方法将以下列方式进行， g 卩：在 时间1读块 

a qU \ U ^ > 

在时间2读心心卜卜心，…，在时间8 读，然后在时间9读 d 5 d 6 d 7 d 8 d 9 
(因为 d 5 d 6 d 7 d 8 d 9 为下次需要的超块），等等。使用 SyncSort 的策略，在内存中将 

需要保存 （P + 3) DB 个记录的缓冲区和 PDB 指针。上面所述的更加多样性的方法 

可被证明仅需要大约一半的缓冲空间，但当 P 和 D 很大时，内存要求仍然近似于和 
PDB 成比例（参见习题24)。 

R. D . Barve , E . F. Grove 以及 J . S . Vitter [ Parallel Computing 23 (1997) ， 601 〜 

631] 证明，对于独立块方法的一个很小的修改将导致这样一个算法，它使磁盘的输 
入/输出运行在接近它的全速之下，同时只需要 0 (P + DlogD ) 个缓冲块而不是 
n ( PD )。 他们的随机分片技术把路段 A 的块 j 放进 （ A + J ) mod D 磁盘上，其中 A 

是在路段々首先被写岀之前刚刚被选择的一个随机整数。取代替总是不变地输入 
D 个块，从每一个磁盘输入一个，他们提出，当没有足够的空间来保持在某些磁盘上 
向前读时，阻止输入的一个简单机制，而且他们证明了，他们的方法是接近最优的。 

为了使用随机分片在 D 个磁盘上进行 P 路合并，我们可以维护 2 D + P + Q-1 
个浮动的输人缓冲区，每一个容纳 B 个记录的一个块。输入典型地读到这些缓冲 
区中的 D 个，我们称其为活动的读缓冲区，另外 P 个缓冲区包含其中记录当前正被 
合并的前一些块，这些缓冲区称做活动的合并缓冲区。其余的 D + Q -1 个“空白” 
缓冲区或者是空的，或者保存预先取得的数据，稍后将需要它们。 Q 是一个非负参 
数，它可以被增值以便来减少在任何盘上输入被阻止的机会。 

所有路段的块如 （19) 中那样，被安排为以时间为序 ：首先 我们列出每个路段的 
块0,然后通过确定活动的合并缓冲区变为空的顺序，列出其它块。像上面所说明 

的那样，这个次序是由每个块中最后的键码确定的，所以我们很容易地预报应该预 
先取得哪些块。 

对 P = 8 ，D = 5 和 Q = 4再次考虑例（19)。现在我们仅有 2 D + P + Q - 1 =21 
个输入缓冲块，而不是上面所述为了极大速度读入所需要的29个。我们将使用下 
列偏离（由 7 U 的十进数字所提示的） 

二 3 ， 工 2 = 1 ， x 3 = 4, x 4 = 1, x 5 = 0, x 6 = 4, x 7 = 2, x 8 = 1 (22) 

作为路段 a , 6, …， / i ; 这样，如果我们以时间为序列出它们的块的话，磁盘分别包含 

磁盘块 



(22) 的“随机”偏离，连同每一个路段内的顺序分片一起，将趋向于极小化任何特定 
的以时间为序所产生的拥挤。实际的处理类似下边这样 进行： 
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时间 1 

活动读 

e o^ogo a o c o 

活动合并 

时间 2 

f\dQdid 2 fo 

^0 

时间 3 


a 0 b 0 c 0 d 0 

时间 4 

a 2 e l b l g l a i 

a o^o c o ( ^o e ofoSo^ l o 

时间 5 

d 4 f 2 h l e2g2 

a o^o c o^i e ifoSo^o 

时间 6 

c i “ 3/3 石 2 泛 4 

a 2^1 c 0^3 e 2f2Sl^0 

时间 7 

? d 5 d 6 ? ? 

a 2^1 c l^4 e 3f2Sl^0 


空白 等候 

( ) a 0 

^ o ^ oC ^ o^o ) d 0 

e ofoSo(^i^2fi ) 厶 0 

c ^ l ( c ^2 e 2 c ^ , iflSl a 2 ~ ) 
^2^2^3^l/l^l^l ^ 2 ( ) fl 

e ^ d ^{ h i g 2 - ) c x 

厶 1 办2尽2«3/3己4(- ) d s 


在每一个时间单位，我们等候还未被合并并且也未在一个空缓冲区中的按时间 
来说的第一个块；这是当前被输入到一个活动读缓冲区的块之一。我们假定，计算 
机比磁盘要快 得多； 因此，在输入完成之前，在我们等候的那个块之前的所有块都将 
已进入合并过程。我们还假定，有充分的输出缓冲区可利用，使得合并不会由于缺 
乏位置来放置输出而被延迟（参见习题26)。当一轮输入完成时，我们等候的那个 
块立即被分类为活动合并缓冲区，而且它原占据的空的合并缓冲区将被用作下一个 
活动的读缓冲区。其它 D -1 个活动的读缓冲区现在和 D - 1个最不重要的空白缓 
冲区 交换； 空白缓冲区是按它们内容的时间顺序来排序的。在下一轮，我们将等候 
不在空白缓冲区中的第一个未合并的块。在时间次序下居于该块之前的任何空白 
缓冲区，在下一输入循环之前将变成活动合并的一部分。但是其它——上面括号内 
所示部分——将继续，而且在下一轮仍将保留作为空白缓冲。但是，在括号内的缓 
冲区中至多有 Q 个可以继续，因为在输入就绪之后，我们需立即把 D - 1个空白缓 
冲区转换成活动读的状态。任何另外的空白缓冲区将有效地被腾出，就如同它们还 
未被读入那样。此腾出岀现在 （24) 中的时间4,我们不能把所有6 个块 
d 2 e 2 d ^ f lgl a 2 继续到时间5,因为 Q = 4，所以我们重读以和 a 2 。 否则这个例子中 

的读操作就以全速进行。 

给定有待合并路段的任何时间顺序，习题29证明，随机分片方法平均说来，在 
r ( D , Q +2) 的一个因式内，将实现极小个数的磁盘读，其中函数 r 列于表2中。例 
如，如果 D = 4和 Q = 18,则用4个磁盘和 P + 25个输入缓冲对 L 个数据块进行 P 路 
合并的平均时间，将至多是在一个磁盘上读 r (4,20) L/D 〜 1.785 L /4 个块的时间。这 


个理论的上限是十分保 守的； 实践中，性能是更好的，它非常接近于最优时间 LI 4。 
_ 表 2 随机分片性能的保证 _ 

r{d 、 d) r(d ,2d) r(d 9 3d) r(d ， 4d) r(d ， 5d) r(d f 6d) r( d $ 7d) r(d ， 8d) r(d ， 9d) r(d ， Wd) 


d 

= 2 

1500 

1.500 

1.499 

1.467 

1.444 

1.422 

1.393 

1.370 

1.353 

1.339 

d 

= 4 

2.460 

2.190 

1.986 

1.888 

1.785 

1.724 

1.683 

1.633 

1.597 

1.570 

d 

= 8 

3.328 

2.698 

2.365 

2.183 

2.056 

1.969 

1.889 

1.836 

1.787 

1.743 

d 

=16 

4.087 

3.103 

2.662 

2.434 

2.277 

2.156 

2.067 

1.997 

1*933 

1.890 

d 

-32 

4.503 

3.392 

2.917 

2.654 

2.458 

2.319 

2.218 

2.130 

2.062 

2.005 
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r(d 、 d) 

r(d f 2d) 

r(d y ?>d ) r(d ) 

r{d 9 5d) 

r(d 9 6d) 

r(d,ld) 

r(d 9 Sd) 

r(d ,9d) r{d y 10c/) 

d ^ 64 

5.175 

3.718 

3.165 

2.847 

2.613 

2.465 

2.346 

2.249 

2. 174 

2.107 

d 二 128 

5.431 

3.972 

3.356 

2.992 

2.759 

2.603 

2.459 

2.358 

2.273 

2.201 

^-256 

5.909 

4.222 

3.536 

3.155 

2*910 

2.714 

2.567 

2.464 

2.363 

2.289 

^ = 512 

6.278 

4.455 

3.747 

3.316 

3.024 

2.820 

2.675 

2.556 

2.450 

2.375 

d^\024 

6.567 

4.689 

3.879 

3.434 

3.142 

2.937 

2.780 

2.639 

2.536 

2.452 


键码排序有效吗？ 当记录均很长而键码均很短时，建立只由键码以及确定它 
们原始文件位置的一系列的数组成的新文件，是特别有吸引力的。在对这个键码文 
件排序之后，我们可以通过连续的数1，2,…来代替这些 键码； 这样新文件就可以根 
据原始文件的位置排序，而且我们可以方便地说明如何整理和最后重新安排记录。 


这个过程可表示 如下： 

i ) 原始的文件 

( K 1 ,/ 1 )( K 2 , I 2 )--( K N ，/ N ) 

长 

ii ) 键码文件 

( K l A )( K 2 ,2)-< K Ni N ) 

短 

iii ) 排好序的 ii ) 

( K p , Pi )( K p i p 1 )'-( K p , p N ) 

1 2 r N 

短 

iv ) 编辑后的 iii ) 

( l ， fii )(2， pXN ， p N ) 

短 

v ) 排好序的 iv ) 

( q l 7 l )( q 2 ,2)--( q N , N ) 

短 

vi ) 编辑后的 i ) 

(qi1 )( » iXqn ， D 

长 


这里 p 尸 k 当且仅当％=>山)和 v ) 中的两个排序过程是比较快的（甚至可能 


是内部排序），因为记录都不很长。在阶段 vi ) 中，我们已经把这个问题归结为对其 
键码只不过是数 U ，2, …， N1 的一个文件进行排序的 问题； 每个记录现在精确地指 
明它要被移到何处。 

乍一看去，阶段 vi ) 之后剩下的外部重排问题似乎是简单的。但事实上，它是相 
当困难的，而且还并未找到真正好（比排序好得多）的算法。显然我们可以在 N 步 
之内进行重排，一次移动一个记录。对于足够大的 N ， 这要比一个排序方法的 
JVlogN 更好些。但是 iV 绝不会这么大，然而 N 也还是非常大的，因为 JV 个寻道是 
不可想像的。 


对于 vi ) 的编辑后的记录可以有效地使用基数排序方法，因为它们的键码有一 
个完全一致的分布。在现代计算机上，八路分布的处理时间比起八路合并的处理时 
间要快 得多； 因此分布排序大概是最好的过程（参见 5.4.7 小节，也可参见习题19)。 

另一方面，在键码已经排好序之后，来做一个完全的排序似乎是浪费。一个原 


因是，外部重排问题意料不到地困难。这点已由 R . W . Floyd 所发现，他找到了为在 


个磁盘设备上重排记录所需要的寻道次数的 


个重要下限 [ Complexity of Com 


puter Computations (New York : Plenum , 1972) ， 105 〜 109] 。 


借助于 5.4.8 小节中的电梯问题，来描述 Floyd 的结果是方 便的； 但这次我们 
要来寻找一个极小化停止次数，而不是运行距离的电梯调度。使停止次数极小并不 
完全等同于极不-寻道的重排算法，因为每次停止都把对电梯的输入和从电梯的输 
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出结合 起来； 但是停止极小化准则十分接近于这里的基本思想。 

我们将利用“离散熵 ” （discrete entropy ) 函数 

F(n) = 2 (T lg^ 1 + 1) — B(n) + n - 1 — n [ Ign ] - 2*" lg71 ^ + n (25) 

i.K k^：n 

其中 B ( rz ) 是二叉插入函数，即等式 5.3.1-(3)。 由等式5.3.1-(34)，尸（/1)是有^ 
个叶的一个二叉树的极小外部通路长度，且 

n\gn ^ F ( rz ) ^ nlgn + 0 . 0861 n (26) 

由于 FU ) 是凸的且满足厂（/2)=/2 + ^^/2/2」）+以「71/21)，由上面的引理（：我们 
知道 

F ( n ) < F(k) + F(n - k) + n 对于 0 < 々 < n (27) 

从 F 的外部通路长度的特征来看，这个关系也是明 显的； 这个关键性的事实下面还 
要用到。 

像在 5.4.8 小节中一样，我们假定，每一层可容纳6个人，电梯可容纳 m 个人， 
此楼共有 n 层。令 Sy 为当前在 z 层而其目的 地是』 层的人数。在这个建筑物中人 

员的任何配置的 集中率 （togetherness rating ) 定义为和^ F ( S ^.) 0 

例如，假定 b-m = n = 6,而且开始时，36个人的分布如下： 

UUUUUU 

123456 123456 123456 123456 123456 123456 (28) 

电梯是空的，停在1 层上； “ U ” 表示一个空位置。在每一层上，对每种可能的目的 
地，均有一个人与之相应，因此所有的~都为1,且集中率为0。如果现在电梯运载 

6 个人到第2层，我们有下列的配置 

123456 

UUUUUU 123456 123456 123456 123456 123456 (29) 

而集中率变为 6 F (0)+24 F (1) + 6 F (2) = 12。 现在假设电梯运载1,1,2,3,3和4 
到3 层： 

112334 

UUUUUU 245566 123456 123456 123456 123456 (30) 

则集中率跃升为 4 F (2)+2 F (3) = 18。 当所有的人都被运载到他们的目的地时，集 
中率将是 6 F (6)=96。 

Floyd 发现，在每次停止之后，集中率的增加绝不会多于6 + 772,因为一组 s 个 
相同目的地的人同一组/个类似+ /) -F(s)- + /。因此我们有下 
列的结果。 

定理 F 令 t 为上述定义下， bn 个人初始配置的集中率。为把他们全部运到目 
的地，电梯至少必须停 

[(F(b)n - t)l (b + 772)1 

次。 ■ 

把这个结果用磁盘术语表达，即 ： 假设有个记录，且每个块有6个记录，内存 
一次可容纳 m 个记录。每一次磁盘读都读一个块到内存中，每一次磁盘写则存储 
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一 个块，~是块 f 中属于块 j 的记录的个数。如果 则存在这样的初始配置，其 

中所有所以〖=0 ,且为了重排这些记录，至少需要 f ( b ) nl(b + 

( bn \ gb ) lm 个读块操作（当6很大时，因子 lg 6 使这个下限不可忽略）。习题17对 
于 m 比6大得多的一般情况，导岀了一个强得多的下限。 

习题 


I . IM 22] 正文中介绍了一个方法，通过它，为读一个磁道的一部分2所需要的平均等待时 


间从+ 减少到圈转动。当有一个存储臂时，这是极小的值。如果有两个存取臂，相距 

180°,任一时刻仅有一个臂可传送数据，则对应的极小平均等待时间是什么。 

2.[ M 30] ( A . G . Konheim ) 本问题的目的是来考察，当合并被垂直分配于柱面的文件时 ，一 
个磁盘的存取臂必须移动多远。假设有 P 个文件，每个含 L 个记录块，并且假定每个文件的第一 
个块出现在柱面1上，第2个块出现在柱面2上，等等。在每个块中最后的键码的相对次序在合 
并期间支配存取臂的运动，因此我们可以以下列在数学上可处理的方式表示这一状况 ：考虑 PL 
个有序对的一个集合 


( ^11 ， 1 ) 

( a 21 ， l ) … 

(aPi , 1) 

( ，2) 

籲 

( a 22 ,2) … 

■ 

( ap 〗，2) 

4 

M 

參 

鬌 

( a ， L ) 

■ 

i 

( a 2 L , L ) … 

■ 

■ 

(api , L ) 


其中集合丨％|1<2‘<尸，1<_;<幻由在某种顺序下的数|1,2，-_，/^|组成，且其中对于 KfCL ， 
% 行表示柱面，列表示输人文件），以它们的第一个分量来对这些对排序并令得到的序 

列为 （1 山 ）（2， j 2 )"*( PL ,_； pl )。 试证明，如 果〜的 （ PU! / U p 个选择的每一个都是同等可能 

的，则 

I h - j 1 1 + I J3 ~ J2 1 + + I jpL - JPL-l I 

的平均值是 

(L - 1) (1 十 （P - 1)2 2L — 2 

提示：参见习题 5.2.1-14。 注意当⑺时这个值渐近等于 + ( P -1 )L v^L + 0( PL ) 0 

3 .[ M 15 ] 假设内存有限使得十路合并是不可行的。问如何修改递推关系 （ 3),(4),(5), 使得 
在所有的具有 n 片叶子且没有叉数大于 9 的内部节点的树 f 中， AtU) 是 aD(5) + /2E ( 刃 的极小 

值？ 

► 4. [ M 21 ] 考虑平方根缓冲区分配方案的一个修改形式，其中所有 P 个输入缓冲区有相同的 
长度，但是应当选择输出缓冲区以便极小化寻道时间。 

a ) 对于一 L 个字符的 P 路合并，推导出对应于 (2) 的一个运行时间公式。 

b ) 试证明，可以修改定理 K 中的构造，以得到这样一个合并型式，按照你从 a ) 中得到的公式， 
这个型式是最优的。 

5 .[ M 20 ] 当使用两个磁盘，以便在一个上的读入和在另外一个上的写相重叠时，我们不可 
能使用如图93所示的合并型式，因为某些叶在偶数级上而某些叶在奇数级上。说明如何修改定 
理 K , 以便产生出这样的树，即在所有的叶都出现在偶数级上或都出现在奇数级上这一约束条件 


/(f)) 
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下，它们是最优的。 

► 6. [22] 当 n = 23 且 a =(3= l 时，求在习题5的意义下最优的一株树（你可能希望使用计算机 
来做） 0 

VI ， [ M 24] 当初始路段不全有相同长度时（在定理 H 的意义下），最好的合并型式使 aD (^) + 
/2 E (5) 极小，其中 D (5) 和£(5)此处表示加权的路径长度 ：把权 ，…，(对应于初始路段的长 

度）附加到树的每个叶，而且叉数之和与路径长度乘以适当的权。例如，如果沒是图92的一株树， 
则我们将有 D ( JP ) = + + + 9 zt >4 + 9 zt >5 + lzv 3 + 4 zv 7 + 4 w 8 yE ( S /) — 2 zvi + 2 zv 2 + 2 w 3 

+ 3w 4 + 3zvs + 2w^ + w-j + wg 0 

试证明，总有一个最优树，其中，对于某个々，首先合并最短的々个路段。 

8. [49] 在习题7的意义下，是否有一个算法，对于给定的《，/?和权加！，…，它对某个 c ， 

仅用 0(/) 步，就找出最优树？ 

9 . [ HM 39 ] ( L . Hyafil , F . Prusker , J . Vuillemin ) 证明，对于固定的 a 和/9,当 w — ⑺时 

A x { n ) = ^ rrdn )” log n + O ( n ) 

其中 O ( n ) 项>0。 

10. [ HM 44 ] ( L . Hyafil , F . Prusker , J . Vuillemin ) 证明，当 a 和 (3 固定时，如果 w 使习题9中 

的系数极小，贝! J 对于所有充分大的 n , A y (n ) = amn +和+ ” ） 。 

11. [ M 29] 使用习题 （6) 和 （11) 的符号，证明对于所有的 m >2 和 n >2 , f m ( n ) + mn > 

/( n ), 并确定使等式成立的所有 m 和72。 

12. [25] 试证明，对所有 n >0, 存在具有 n 个叶和极小叉数路径长度 （6) 的一株树，其所有的 
叶都在同一级上。 

13. [ M 24] 试证明，对于其中 d ( a ， P ) 在 （12) 中定义，在定理 H 的意义下惟一 
最好的合并型式是一个 n 路合并。 

14. [40] 若使用缓冲区分配的平方根方法，则对图92中的合并型式的寻道时间将与 (力 +A 

+41 +/! +78) 2 + (41 ^-41 + V 2) 2 + (71 +42+41 + V 4) 2 + (41 +^i +42) 1 成 正比； 这实际上是每 

个内部节点的 （/& +…+ + /心+…+、） 2 的和，其中各节点对应的子树有（〜，…， 

7^) 个叶。基于这个公式，试编写一个计算机程序，它生成有1，2,3,…个叶的极小寻道时间树。 

15. [ M 22] 试证明，如果电梯开始时为空，且如果 F (6) n #《， 则可对定理 F 稍做改进， 即：在 
这样的情况下，至少「 F ( b ) n + m ~ t ) l(b + m )1 次停止是必须的 D 

16. [23] ( R . W . Floyd ) 试求一个电梯调度，它运载 （28) 中的所有人到他们的目的地最多停 
12次（配置 (29) 表明一次停止，而不是两次之后的状况）。 

>\1\ HM 25] ( R . W . Floyd ,1980) 由于某些初始配置必定要求下述这么多次的停止，试证明 

定理 F 的下限可改进为 

n { b \ r \ n — In b — 1) 

In rz + 6(1 + In (1 十 mjb )) 

提示： 计算在 s 次停止之后可以排序的配置数。 

IS . [ HM 26] 设 L 是习题17的下限。试证明，为把所有人带到他们的目的楼层所需要的电 
梯停止的平均次数，当人们进 入到如 个磁盘的所有 （6 n )! 种可能的排列都是同等可能的时，至 

少为 L~lo 

► 19. [25] ( B . T . Bennett 和 A . C . Mckellar ) 考虑下列键码排序的方法（以含10个键码的一个 
示例文件来说 明）： 

ii ) 键码文件：（50,0)(08，1)(51，2)(06,3)(90,4)(17,5)(89,6)(27,7)(65,8)(42,9) 
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iii ) 排序后的 ii ):(06,3)(08， l )(17,5)(27,7)(42,9)(50,0)(51，2)(65,8)(89,6)(90,4) 

iv ) 箱指定(见下面）：(2，1)(2,3)(2,5)(2,7)(2,8)(2,9)(1，0)(1，2)(1，4)(1，6) 

v ) 排序后的 iv )：( l ,0)(2,1)(1,2)(2,3)(1,4)(2,5)(1,6)(2,7)(2,8)(2,9) 

vi ) 使用 v ) 把 i ) 分布到 箱中： 

箱 1 ： (50, 7 0 )(51,/ 2 )(90,/4)(89J 6 ) 

箱2：(08,1 1 )(06,/ 3 )(17,/ 5 )(27 ) 7 7 )(65,7 8 )(42,7 9 ) 

vii ) 替代选择的结果，首先读箱2,然后读箱1: 

(06,/ 3 )(08,/ 1 )(17,/ 5 )(27,/ 7 )(42,/ 9 )(50,7o)(51,/ 2 )(65,/ 8 )(89,/ 6 )(90,7 4 ) 

步骤 iv ) 中箱号的指定，是通过对 iiO 做替 代选择，从右到左 ，且以第二个分量的 递减次 序来进 
行。箱号即路段号。上面的例子使用在选择树中仅有两个元素的替代选择。在 iv ) 和 vH ) 中对替 
代选择应使用相同大小的树。注意箱的内容不必是排序的！ 

试证明，这个方法将完成排序，即 vii ) 中替代选择将仅产生一个路段（这个技术通过分布而减 
少在传统的键码排序中所需要的箱子数，特别是当输入大部分已处于有序时）。 

► 20. [25] 现代的硬件/软件系统为程序员提供了一个虚 拟内存 ，使得编写程序时，就好像有一 
个非常大的、可以包含所有数据的内存一样。此内存分为一些页，在某一个时刻只有一小部分在 
真正的内存当中，其它的则在磁盘或磁鼓上。程序员不必关心这样的细节，因为系统会处理每一 
件事； 当需要时新的页会被自动地放进内存中。 

看起来，虚拟内存技术的发明使外部排序方法显得有些过时，因为使用针对内部排序所开发 
的技术就可简单地完成工作。试讨论这一情况，问在什么方式下，一个定制的外部排序方法要胜 
过一个应用通用分页技术的内部排序方法？ 

V2\.[M15] 当把文件分片到 D 个磁盘时，一个 L 个块的文件中有多少块会分到磁盘 j •上？ 

22 . [22 ] 如果使用 Gilbreath 原理合并两个文件，而且要以 a 个块来存键码以6个块来存 

键码色，问为在需要时即有信息可用， a , 应被放置在哪个块中？ 

► 23. [20] 当分别以 （ a ) 超块分片和 （ b ) Gilbreath 原理来进行两路合并时，为使输人连续地进 
行，输人缓冲区需要多少空间？ 

24. [M36] 假设已经把 P 个路段分片到 D 个磁盘上，使得路段々的块 j 出现在磁盘 （ A + j ) 

mod D 上。一个 P 路合并将以如 （19) 那样的某个时间顺序读这些块。如果要连续地输人多组 D 
个块，则如 （21) 中那样，我们将在时刻〖读每个磁盘上所存的第 t 个块。无论时间顺序如何，为保 
存还未被合并的数据，内存中需要的缓冲存记录的极小个数是多少？说明如何选择偏离值: 

使得在最坏情况下需要的缓存最少。 

25. [23] 对于 Q = 3 而不是 Q = 4 的情况，重做正文中随机分片的示例。与 （24) 不同，什么 
缓冲区的内容将出现？ 

26. [26] 有多少输出缓冲区能够保证，随机化分片的 P 路合并不会由于内存中缺乏位置来 
放 置新近 合并的输出而停止？假定写一个块的时间等于读一个块的时间。 

27. [// M 27] (循 环占有问题） 假设把 《 个空瓶子放成一个圆并且指定了编号0，1， - 
1。对于々=1，2，…，/?，我们把球掷到瓶 （ + j ) mod n 中，其中 j =0， l ， …，1，且整数 

七是随机选择的。设 S / m 】 ，…，是在瓶0中的球数，设，…，是在最满的瓶中预 
期的球数。 

a ) 证明 E „ ( iminU ， nPr ( Sjm " … ， m p )> f ))， 其中 m = 〜 + … + m p0 

b ) 使用尾部不等式，等式1.2.10-(25)，证明对于任何非负实数 ai ， a 2 , …，〜 




) ^ min 1， 



(1 + ajn) m 
(1 + 
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0^，…， ct w 的什么值给出最好的上限？ 

28. [ HM 47] 继续27题，+ m 2 ，，…， m p ) 吗？ 

^29. [ M 30] 本题的目的是导出，当块表示 P 个路段和 D 个磁盘时，通过随机分片过程，为输 
入以时间为序的任何块序列所需要的平均时间的一个上限。我们说，当算法进行时（参见 （24)), 
在每一时间步中所等候的块被“标记”；因此总的输入时间和被标记的块个数成正比。标记仅依赖 
于磁盘存取的时间序列（参见（20))。 

a ) 证明，如果 Q + 1个时间顺序下连续的块中有个在磁盘 j 上，则在这些块中至多有 

max ( Nq , ，…， N d - i ) 是被标记的。 

b ) 通过证明对于 Q + 2 个连续的块它也成立来加强 a ) 的结果。 

c ) 给定任何时间顺序，借助于表2中的函数 r ( D，Q + 2), 使用习题27的循环占有问题，得到 
平均运行时间的一个上限。 

30. [ HM 30] 试证明，当 5— ⑴时，对于固定的习题29的函数 r U ， m ) 满足 rU , dlogd ) 

= 1 + 0( l/v^s) o 

31. [ HM 48] 作为 P , Q 和 D 的函数，分析随机分片以确定它真正的平均特性，而不仅仅是一 
个上限（甚至在 Q -0 的情况下，它需要平均 WL // 乃）的读循环，这是很有趣的）。 

5.5 小结、历史和文献目录 

既然我们已经接近这极为冗长的一章的结尾，我们最好“整理岀”已经研究过的 
最为重要的事实。 

用于排序的一个算法，是一个这样的过程，它重新安排一个文件的所有记录，使 
得其键码处于递增的次序。这有序的排列是有用的，因为它把相同键码的记录放到 
一起，允许有效地处理按同一键码排好序的多个文件，这导致了有效的检索算法，而 
且使计算机的输出看上去不那么混乱。 

当所有的记录都置于计算机的高速内存中时，就使 用内部排序。 我们对于内部 
排序已经研究了很多算法，其详细程度各不相同；不过或许我们并不知道对这个问 
题有这样多种不同方法时，我们反倒会轻松些！学习所有这些技术是有趣的，但是 
现在我们却不得不面临这么一种情况，即在一给定的情况下，到底应该使用哪一种 

方法。 

如果不论是对哪一种应用，或不论正在使用的是什么计算机，仅仅有一两种排 
序方法，它比所有其它的排序方法都好，那么，事情倒很好解决。但是事实上，每种 
方法都有它各自的特点。例如，冒泡排序（算法 5.2.2 B ) 并没有明显可取的特性，因 
为总有一个更好的方法来完成它所能完成的；但即使是这样一项技术，在做适当的 
拓展之后，证明对于两条磁带的排序是有效的（参见 5.4.8 小节）。因此我们发现, 
几乎所有的算法都值得去记住，因为在某些特定应用中，它们是最好的。 

以下的简短总结，给出了对于内部排序，我们所涉及到的最有意义算法的概述。 

和通常一样， N 表示给定文件中的记录数。 

1 . 分布计数 ，算法 5.2 D 当键码有一个小的变化范围时，此方法非常有用。它 
是稳定的（不影响具有相同键码记录的次序），但需要存储计数器和 2 N 个记录的存 
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储空间。习题 5.2-13 中给出了在损失稳定性的代价下，节省 iV 个记录空间的一个 
修改。 

2 . 直接插入 ，算法 5.2.1 S 对于编程来说是最简单的方法，不需要额外的空 
间，而且对于较小的 iV (比如说 N <25) 十分有效。对于大的 N , 它慢得不能容忍， 
除非输入是接近于有序的 。 

3 . Shell 排序，算法 5.2.1 D 也十分容易编程，而且使用极小的内存 空间； 它对 

于大小适当的 N ( 比如说 N <1000) 相当有效。 

4 . 表插入 ，算法 5.2.1 L 使用和直接插人相同的基本思想，所以它仅适合于小 

的 N 。 如同以下所述的其它表排序方法一样，它通过处理链接减少了移动长记录的 
花销； 当记录的长度可变，或者是其它数据结构的一部分时，特别有效。 

5. 地址计算 当键码有一个已知的（通常是一致的）分布时很有效。这个方法 
主要的变种是多 表插入 （程序 5.2.1 M )， 以及 MacLaren 的组合基数插人方法（在 

5.2.5 小节的结尾处讨论），后者仅用 0(#) 个额外内存单元来完成。在定理 
5.2.5 T 中讨论了两遍扫描的方法。 

6 . 合并交换 ，算法 5.2.2 M ( Batcher 方法）此算法和它的“姊妹”算法双 调排序 

(习题 5.3. 4-10)，在大量的比较可同时进行时很有用。 

7. 快速排序，算法 5.2.2 Q ( Hoare 方法）此算法大概是内部排序中最有用的通 
用技术，因为它需要非常少的内存空间，而且在大多数计算机上，当很好地实现时， 
它的平均运行时间少于其它算法的平均运行时间。但是在最坏的情况下，它运行得 
非常之慢，所以当可能是非随机的数据时，应当小心选择分划的元素。如习题 5.2. 
2-55 中所建议的，选择3个元素的中间值，使最坏的情况极不可能发生，同时也对平 

均运行时间有所改进。 

8 . 直接选择 ，算法 5.2.3 S 当可用特殊硬件来高速寻道一个表的最小元素时，是 
一个特别合适的简单方法。 

9. 堆排序 ，算法 5.2.3 H 需要极小的内存，而且保证十分快地 运行； 它的平均时 

间和极大时间都约为快速排序平均运行时间的两倍。 

10. 表合并 ，算法 5.2.4 L 此算法是一个表排序，它和堆排序相像，保证甚至在 

最坏的情况下也是相当快的，而且对于相等的键码它是稳定的。 

11 . 基数排序，使用算法 5.2.5 R 它是一种表排序，特别适合于这样一些键码 
的排序，它们或者比较短，或者是按一个非通常的字典顺序排列。也可以使用分布 
计数方法（见上面的 1) 以代替 链接； 这样一个过程需要 2 iV 个记录空间，加上一个计 
数器表，但是它的内部循环的简单形式，使它特别适用于超高速的“吞嚼数据”的有 

先行控制的计算机。警告 :基数 排序不应对小 N 使用！ 

12 . 合并插入 ，见 5.3.1 小节在一个“直接行编码”的例程中，特别适合于非常 

小的 N 。 例如，在需要对大量5个或6个记录一组排序的应用中，它将是适当的方 
法。 

13. 混合的方法 把上述的一种或多种技术组合在 一起， 也是可能的。例如，合 
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并插入可用于快速排序中出现的短的子文件排序。 

14.最后 ，一 个出现在习题 5.2.1-3 答案中的未命名方法，似乎要求最短的排序 
程序。但它的平均运行时间同 N 3 成正比，这就使它成为本书中最慢的排序例程！ 

表1综述了当为 MIX 编程时，这些方法的速度和空间特征。重要的是要认识 
到，这个表中的数字仅仅是相对的排序时间的粗略表示；它们仅应用于一台计算机 
上，而且关于输入数据所做的假定对所有的程序来说并不完全一致。其它作者给出 
了与此表相似的其它一些比较表，而且没有两个人给岀相同的结论来！另一方面， 
这些估计时间至少给出当对一个字的记录排序时，对每种算法可能预期的大体速 
度，因为 MIX 是一台相当典型的计算机。 

表1中的“空间”列，给出了每种算法所使用的辅助存储数量的某些信息，它以 
记录长度为单位，其中表示记录中链接字段部分所需的长度。例如， N(l + d 意 
味着这个方法要求 iv 个记录加上 iV 个链接字段的空间。 

表1中出现的渐近平均时间和极大时间，仅仅给出了当 N 很大时占支配地位 
的前导项，且假定为随机 输入； c 表示一个未确定的常数。这些公式可能常会引起 
误解，所以特地对两个特殊的输入数据序列，列出了程序实际的总运行时间 。 N = 
16的情况指的是16个键码，它出现在 5.2 节的许多示 例中； 1000的情况指的 

是由 

K 100 i = 0; K n . { = (3141592621 K n + 2113148651 )mod 10 10 
所定义的序列 一 个相当“高质量”的 MIX 程序用来表示表中的每 

种算法，通常还加上了习题中所建议的改进。这些程序运行时的字节大小为1000 

外部排序 技术不同于内部排序，因为它们必须使用比较原始的数据结构，并且 
着重强调把它们的输人/输出时间极小化。 5.4.6 小节综述了对于磁带合并已经发 
现的有趣方法， 5.4. 9小节讨论了磁盘和磁鼓的作用。 

当然，排序并不是我们的全部目的。在研究所有这些排序技术的同时，我们学 
习了大量的有关如何处理数据结构、如何处理外存，以及如何分析算法等问题；而 
且，也许我们甚至已经掌握了一点儿如何来发现新的算法的本领。 


早期的发展 对于今天排序技术起源的探索,把我们带回到19世纪，因为那时 
发明了第一批用于排序的机器。美国每十年进行一次全国人口普查，而到1880年 
左右，处理庞大的人口普查数据的问题就变得十分尖锐；事实上，独身者（相对于结 
了婚的）的总数总不能在当年就造出表，即使所需要的信息都已经收集好了也是如 
此 。 Herman Hollerith ，人口统计局的一^名20岁的职员，发明了一'台巧妙的电动制表 
机，以满足更好地进行统计收集的需要，他的大约100台机器成功地用于制造1890 
年的人口名册。 

图94所示为 Hollerith 最初的用电池驱动的 装置； 我们的主要兴趣在于右边的 
“排序盒”，它已被打开以示出26个内部小室的一半。操作员插人一张 6 flnX 3 
In 的穿孔卡片到“夹具”上，然后放下 手柄； 这使得在卡片中穿有孔的地方，上面板上 

• 357 - 




• 358 • 



5.5 小节、历史和文献目录 


用弹簧驱动的针同在下面板上的水银容器相接触。相应的完整的线路将引起控制 
台面板上的相关转磁盘前进一个 单位； 然后，26个排序盒盖之一推开。这时，操作 
员重新打开夹具，把卡片放到打开的小室，并关上盖。据说 ，一 个人在6个半小时的 

一个工作日中通过这个机器能运行19 071张卡片，大约每分钟49张卡片(一个熟 
练操作员的工作速度大约仅为这个速度的 f 左右)！ 



§ 94 Hollerith 最初的制表机和排序机 

( 经 IBM 档案室同意采用此照片） 


随着人口的持续增长，原来的制表排序机已经不足以处理1900年的人口，所以 
Hollerith 又发明了另一台机器以解决数据处理的危机。他的新设备 （1901 年和 
1904年的专利）有一个自动的进卡（片）器，事实上它很像现代的卡片排序机。关于 


Hollerith 早期机器的故事 ， Leon E . Truesdell 曾在 The Development of Punch Card 


Tabulation ( Washington ： U . S - Bureau of the Census ，1965) 中予以有趣而详尽地描 


述。另外也可参见当时的报导，如： Columbia College School of Mines Quarterly 10 


(1889) ,238^255 m J . Franklin InsU 129( 1890)，300 〜 306 ; T 7 ie Electrical Engineer 12 
(November 11, 1891) ， 521 〜 530 ;/• Amer . Statistical Assn . 2 (1891 )，330 〜 341 ， 4 
(1895) ,365 ; J . Royal Statistical Soc . 55 (1892 )，326 〜 327 ;Allgemeines statistisches 
Archiv 2(1892) ， 78 〜 126;/. Soc . Statistique de Paris 33(1892)，87〜96; L 7. S . Patents 
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395781 (1889),685608 (1901) ,777209 (1904 )。 Hollerith 和人 口统计局另一名职员 
James Powers 接着又创办了互相竞争的公司，它们最终分别成为 ffiM 和 Remington 
Rand 公司的一部分。 

Hollerith 的排序机当然是现在数字计算机中基数排序方法的基础。他的专利 
提到，两列数值项的排序是对每列独立进行的，但他没有说是否应当首先考虑个位 
列或者十位列。 

由 John K . Gore 在1894年获得的编号为518240的专利，描述了用于对于卡片 
排序的另一台早期的机器，它提议由十位的列开始。使用个位列的不明显的技巧大 
概首先是由某个不知名的机器操作员发现的，然后传给其他人（参见 5.2.5 小 节）； 
它出现在最早期流行的 IBM 排序机手册 （1936 年）中。这个自右至左技术的第一个 

已知的出处是在 Robert Feindler 所写的 一 本书 Das Hollerith ~ Lochkarten - Verfahren 

( Berlin : Reimar Hobbing ，1929) , 126〜130中。大约在同一时间， L . J . Comrie 在一篇 

论文 Transact ions of the Office Machinery Users ’ Associa tion ( London ： 1929 — 1930), 

25 〜 37 中也曾提到。很偶然地， Comhe 成了作出重要发现的第一人，这一发现就 
是，制表机最初尽管是为统计和结算而设计的，但它们可以有效地用于科学计算中。 
他的文章特别有趣，因为它给出了 1930年在英国可买到的制表设备的详细描述。 
那时的排序机每分钟处理300〜400张卡片，而且可以以每月9 £的租金出租。 

合并的思想可回溯到另一部卡片滚动机器•.整理机，这是一项晚得多的发明 
(1938 年）。通过它的两个进卡站，可以在仅仅一次扫描中就把两叠排好序的卡片 
合并成 一叠； 完成此项工作的技术，在第一本 IBM 整理机手册 (1939 年4月）中就清 
楚地说明了 [参见 James W . Bryce , U . S . Pa ten t 2189024 (1940)] 。 

随后计算机走到了前台，而且终于把排序也包括在其发展过程当中。事实上有 
证据表明，排序例程曾经是为可存储程序的计算机编写的第一个程序。 EDVAC 的 
设计者们对于排序特别感兴趣，因为它集中体现了计算机潜在的非数值 应用； 他们 
认识到，一组令人满意的指令代码，不仅应有能力表达用于解差分方程的程序，它还 
必须有足够的灵活性来处理算法中的组合“判定”问题。约翰•冯•诺依曼因此于 
1945年编制了用于内部合并排序的程序，为的是检验他建议的 EDVAC 计算机的某 
些指令代码的适 用性； 有效的专用排序机的存在，提供了一个自然的标准，通过这种 
标准就可以评价他所提议的计算机组织的优点。本书作者在 Cbmputhg Surveys 2 
(1970)，247 〜 260 —文中已经描述了这一有趣的发展细节。关于冯•诺依曼对最初 
的排序程序“润饰”后的形式，可参见冯•诺依曼的 CbWected Dorics 5 (New York ： 
Macmillan , 1963), 196 〜214。 

在德国， K . Zuse 于 1945 年独立编写了用于直接插入排序的一个程序，作为他 
的 Plankalkul 语言中线性列表操作的最简例子之一（这一开创性的工作推迟了近30 

年才发表；见 Berichte der Gesellschaft fur Mathematik und Datenverarbeitung 63 

( Bonn ： 1972 ),Part 4 ， 84 〜 85 0 

由于为早期计算机设计的内存容量是很有限的，所以很自然地，既要考虑内部 
排序也要考虑外部排序。由穆尔电子工程学校的 J . P . Eckert 和 J . W . Mmichly 所撰 
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写的报告 “Progress Report on the EDVAC，，（1945 年 9 月 30 日 ) 指出，装有磁线或磁 

带设备的一台计算机可以模拟卡片机的操作，达到更快的排序速度。这个报告描述 
了平衡的两路基数排序，以及平衡的两路合并（称为“整理”），同时使用 4 个磁线或 
磁带机，“每秒至少读或写 5000 个脉冲”。 

1946 年在穆尔学校举行的有关计算的专题讨论会上， John Mauchly 作了“排序 
和整理”的演讲，他的演讲稿是第一个公开发表的关于计算机排序的讨论 [Theory 

and Techniques for the Design of Electronic Digital Computers ， G. W. Patterson 主编， 3 

(1946),22.1 〜 22.20]。Mauchly 以一段有趣的话来开始他的介 绍：“ 要求一台机器 
把计算和排序的能力结合在一起，似乎很像要求一个设备既能用作开瓶器，又能用 
作自来水笔。”然后他说，有能力进行复杂的数学运算的机器必须也有能力对数据排 
序和分类，而且他还说排序甚至在数值计算中也会有用。他描述了直接插人和二叉 
插人，说明前一种方法平均使用大约 N 2 /4 个比较，而后一种方法则不会需要多于 
NlgN 个比较。然而，二叉插人需要一个颇为复杂的数据结构，他接着说明两路合 
并仅仅使用对表的顺序存取就达到了同样低的比较次数。他的演讲稿的后半部分 
专门讨论了部分扫描的基数排序方法，即模拟 4 条磁带上的数字卡片排序，同时每 
位数字使用少于 4 次的扫描(参见 5.4.7 小节）。 

不久以后， Eckert 和 Mauchly 创立了一个公司，这个公司生产了一些最早的电 
子计算机， BINAC (供军事应用）以及 UNIVAC (供商业应用）。美国人口统计局再 
次在其发展中发挥了作用，接受了第一台 UNIVACo, 这时，还完全不了解计算机在 

经济上的 作用； 用计算机排序可以比卡片机快，但它们要昂贵得多。因此，由 
Frances E. Holberton 领导的 UNIVAC 程序员们，花费相当大的精力设计高速的外 

部排序例程，并且他们早期的程序也影响了硬件的设计。按照他们的估计，在 UNI- 
VAC 上一亿个 10 个字的记录可以在 9000h (即 375 天）之内完成排序。 

UNIVAC I 正式交货于 1951 年7月，它的内存为有 1000 个字长12字符 （72 
位）的字。它被设计成以每秒钟 500 个字的速度，在磁带上读写 60 个字长 的块； 可 
以向刖或向后读，而且可以同时进彳了读/写/计算。 1948 年， Holberton 夫人想出了一 ■ 
个有趣的方法，使用6个输人缓冲区，以读、写和计算的完全重叠来进行两路合并: 
设每个输人文件都有一个“当前的缓冲区”和两个“辅助的缓冲区”，有可能以这样一 
种方式来进行合并，即每当输出一个块时，两个当前的输人缓冲区包含着总共恰恰 
相当一个块的未处理的记录。因此，在形成每个输出块时，恰有一个输人缓冲区变 
空。故我们可以安排成，在所有时刻，当要读人一个辅助缓冲区时， 4 个辅助缓冲区 
中的另外3个都是满的。这个方法比算法 5.4.6F 的预报方法要稍微快些，因为它 
不需要在开始下一'个输人之前，检查已输人的结果[参见 “Collation Methods for the 
UNIVAC System ” (Eckert.Mauchly Computer Corp. , 1950) ,2 Volumes ]。 

这项工作的顶峰即排序生成程序，它是自动程序设计领域中研制的第一个重要 
的软件例程。用户指明记录的大小、每个记录的部分字段中最多5个键码的位置以 
及标记文件结束的哨兵键码，而排序生成程序将为一卷文件产生受版权保护的排序 
程序。此程序的第一遍扫描是使用比较计数（算法 5.2 C ) 的60字块的一个内部排 
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序； 然后进行一些平衡的两路合并扫描，向后读，以及避免如上所述的磁带互锁[参 

见 “Master Generating Routine for 2 -way Sorting ”（ Eckert-Mauchly Division of Re ¬ 
mington Rand , 1952)。 这个报告的第一'个草稿的标题为 “Master Prefabrication Rou ¬ 
tine for 2 -way Collation ”。 另外也可参见 F . E . Holberton 的 Sympos/’um on Automatic 
Programming (Office of Naval Research , 1954) ,34 〜 39]。 

到 1952 年左右，内部排序的许多方法已在程序设计领域广为流传，但理论上的 

研究去 P 相又寸 ^艮少 。 Daniel Goldenberg [ u Time analyses of various methods of sorting 
data”，Digital Computer Laboratory memo M ~1680 ( Mass . Inst , of Tach . , 17 October 

1952)] 用 Whirlwind 计算机编写了 5 个不同方法的程序，并对每个程序都就最好的 
情况和最坏的情况进行了分析。当对100个具有8位键码的15位字进行排序时， 
他发现最快的方法是使用一个256字的表，把每个记录存入对应于它的键码的惟一 
位置，然后压缩这份表。但这项技术有一个明显的缺点，因为每当后继的记录有相 
同的键码时，它将冲掉一个记录。他所分析的其它4种方法排列如下 ：直接 两路合 
并优于基数2排序优于直接选择优于冒泡排序。 

Goldenberg 的结果，由 Harold H . Seward 在他 1954年的硕士论文 [“Information 

sorting in the application of electronic digital computers to business operations ” , Digital 

Computer Lab . report R -232( Mass . Inst . of Tech . ,24 May 1954;60 页）]中作了推广。 
Seward 引进了分布计数和替代选择的 思想； 他证明在一个随机排列中第一个路段 
的平均长度为 e -1; 而且他分析了在磁带上以及在各种类型的海量存储设备上的内 
部排序以及外部排序。 

由 Howard B.Demuth 于 1956撰写的博士论文 〔 “Electronic Data Sorting ^( Stan ¬ 
ford University ， October 1956 年 10 月 ），92 页 ;IEEE Trans . 034 (1985) ， 296 〜310〕， 

可以说一篇非常值得关注的论文，因为这篇论文有助于奠定计算复杂性理论的基 
础。它利用循环的、线性的以及随机存取的存储器，考虑了排序问题的3个抽象模 
型，并对每个模型提岀了最优的或接近于最优的方法（参见习题 5.3. 4-68)。尽管 
Demuth 的论文并没有立即产生实际的结果，但它却建立了如何把理论同实践相联 
系的重要思想。 

这样一来，排序的历史已经同计算中的许多“第一”紧密地联系在一起：第一个 
数据处理机器，第一个可存储程序，第一个软件，第一个缓存方法，第一个进行算法 
分析和计算复杂性分析。 

迄今所述的有关计算机的文献，实际上都未出现在“公开的著作 ”中； 事实上，计 
算的大多数早期的历史，都岀现在比较难以得到的报告中，因为在那时仅有比较少 
的人跟计算机打交道。有关排序文献的第一次付印是在1955年〜1956年，用的是 
3篇重要的综述性文章。 

第一篇综述性文章由 J . C . Hosken 撰写 [ jRroc . Eastern Joint Computer Conference 

8 (1955),39 〜 55]。 他以敏锐的观察开 始：“ 为降低每个输出单位的价格，人们通常 
都在增加他们的操作规模。但在这样的条件下，排序的单位费用，不是降低了，而是 
增加了。” Hosken 综述了在计算机上进行排序的方法，以及所有可利用的现在已在 
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销售的专用设备。他的54项参考文献目录大多数是以厂家的手册为基础的。 

E.H. Friend 的内容丰富的论文 Sorting on Electronic Computer Systems [JACM 

3(1956),134 〜 168], 是排序发展中的一个重要里程碑。尽管自1956年以来已经发 
展了许多技术，但这篇论文在许多方面直到今天仍然值得注意。 Friend 对于相当多 
的内部和外部排序算法给出了细致的描述，而且他对于缓存技术和磁带机的特征给 
以特殊的关注。他引进了某些新的方法（例如，树的选择，两头蛇排序以及预报），而 
且展示了较早方法的某些数学性质。 

大约在同一个时间里出现的第三篇关于排序的综述性文章，是由 D.W. Davies 
[Proc. Inst. Elect. Engineers 103B, Supplement 1 (1956) ， 87 〜 93 ] 撰写的。在随后数 

年中，下列作者也发表了许多值得关注的 综述： D. A.Bel:[[Comp. J. 1(1958),71 〜 
77] ; A. S. Douglas [Comp. J. 2( 1959), 1 ~ 9 ]; D. D. McCracken, H. Weiss 以及 T. Lee 

) [Programming Business Computers (New York: Wiley ， 1959) ， 第 15 章， 298 
〜 332]; I • Flores L/ACM 8(1961) ， 41 〜 80];K.E. Iverson [A Programm ing Language 
(New York ： Wiley , 1962) ，第 6 章 ， 176 〜 245];C. C. Gotlieb[CACM 6(1%3) , 194 〜 
201 ] : T. N. Hibbard[CACM 6( 1963) ,206 〜 213]; M. A. Goetz [Digital Computer Us- 
er s Handbook, M. Klerer 和 G. A. Korn 主编 （New York : McGraw-Hill, 1967),1. 10 

章 ，1.292 〜 1.320]。1962 年 11 月 ACM 主持召开了一次关于排序的研 讨会； 在该 
会上宣读的大多数论文都发表在 CACM 1963年5月的刊物上，并且它们乃是当时 
技术发展水平的很好代表。 C.C.Gotlieb 关于现代排序生成程序的综述， T.N. Hib¬ 
bard 关于极小存储内部排序 的综述 ，以及 G.U. Hubbard 关于磁盘文件排序的早期 
剖析，都是这个文集中特别值得关注的文章。 

在整个这段时期还发现了一些新的排序方 法：地 址计算 （1965 年），合并插入 
(1959 年），基数交换 （1959 年），级联合并 （1959 年）， Shell 排序 （1959 年），多阶段合 
并 （1960 年），树插人 （I960 年），振荡排序 （1962 年）， Hoare 的快速排序 （1962 年）， 
William 的堆排序 （1964 年）， Batcher 的合并交换 （ 1964年）。在本章特定小节中，在 
描述方法的同时已经追述了每个算法的历史。20世纪60年代后期，相应的理论得 
到了深入的发展。 

当最初写本章时，作者所考察的有关排序所有论文的一份完整参考文献，是在 

R. L. Rivest 的帮助下编辑的，岀现于 Computing Reviews 13(1972) ,283 〜 289中 。 

未来发展 自1970年以来，已有数十个排序算法被发明岀来，尽管几乎所有的 
这些算法都是早期算法的变种。在习题 5.2.2-30 的答案中讨论的 多键码快速排 
序，是这些新方法中的一个出色例子。 

另外一个趋势，迄今主要还是理论上的，是研 究可自 适应的排序方案。即在这 

样一个意义下，按照不同原则，当输人已经很趋于有序时，能够保证它们运行得更 
快。 请参见 H. Mannila ， Transactions C_34( 1985 ) ， 318 〜 325; V. Estivin_Castro 

和 D. Wood,Compufing Surveys 24(1992) ,441 〜 476;C. Levcopoulos 和 O. Petersson, 
Journal of Algorithms 14(1993) ,395 〜 413; A. Moffat, G. Eddy 和 O. Petersson, Soft- 
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ware Practice & Experience 26(1996) ，781 〜797。 

当开销的准则发生变化时，计算机硬件的改变促进了关于排序算法有效性的许 
多有趣研究。例如，习题 5.4.2-20 中关于虚拟内存的讨论。 A . LaMarca 和 R . E . 
Ladner 分析了硬件的高速缓存对于内部排序的影响 （SODA 8 (1997) ，370〜379 ) 。 
他们的结论之一是，在现代机器上算法 5.2.2 Q 的步骤 Q 9 是一个不好的想法（尽管 
在像 MIX 这样的传统计算机上它工作得很 好）： 应代之以直接插人排序来完成快速 
排序，此时最好早些对短的子文件进行排序，因为这时它们的关键字仍然在高速缓 
存中。 

当前对于大量数据进行排序的技术其发展水平又如何呢？自1985年以来 ，一 
个普遍的标准是对100万个含100个字符的记录进行排序，而这些记录有完全随机 
的10字符的关键字。输人和输出应当驻留在磁盘上，目标是极小化总的消逝的时 
间，包括用于启动程序的时间。 R . C . Agarwal [SIGMOD Record 25,2 (June 1996), 

240〜 246] 使用一台桌面 RISC 计算机，即 IBM RS /6000 型 39 H ， 对被分片到8个磁 
盘机的文件实现基数排序，它在 5.1 s 内完成这一任务。输人/输出是主要的 瓶颈; 确 
实，处理器只需要 0.6 s 来控制实际的排序！当有多个处理器可以利用时，甚至可以 
更快。用32台 Ultra SPARC I 工作站组成一个网络，每个工作站有两个内部的磁 
盘,使用一个称为 NOW-Sort 的混合方法，能在 2.41 s 内对100万个记录进行排序 

[ A . C . Arpaci - Dusseau , R . H . Arpaci - Dusseau , D . E . Culler , J . M . Hellerstein 和 D . A . 

Patterson ,SIGMOD Record 26 ， 2(1111161997) ， 243 〜 254] 。 

这样一些进展意味着百万个记录的标准变成主要是启动和关闭时间的一个测 
试，所以需要更大的数据集合以给出更有意义的结果。例如， 太拉字节排序 ——10 10 
个含有100个字符的记录 —— 现在的世界纪录是 2.5 h 。 它是由一个具有32个处理 
器的 Silicon Graphics Origin 2000系统在1997年9月实现的，其中每个处理群有 
8 GB 的内存，以及559个 4 GB 的磁盘。这个记录是由一个市场上销售的称为 
Nsort ™ 的排序程序创造的，它是由 C . Nyberg , C - Koester 以及 J . Gray 使用尚未公开 
的方法编写的。 

也许有一天太拉字节也会被认为是太小的标准。 一 个标准要想永远有效，目前 
的候选者就是分 钟排序 ：即在 60 s 之内可以对多少个100字符的记录进行排序？在 
本书付印时，对于这一任务当前记录的保持者是 NOW - Sort ： 1997年3月30 0 ,95 
个工作站只需 59.21 s 就把 90.25 百万个记录排好了序。但是现今的方法并没有真 
正提高速度的根本极限。 

总之，今天有效排序的问题仍然和它曾经有过的一样，是一个迷人的问题。 

习题 

1. [05]试通过叙述定理 5.4.6 A 的一个推广，来总结这一章的 内容。 

2. [20] 基于表1中的信息，对于6位数的键码，什么是 MIX 计算机上最好的表排序方法？ 

3. [37] (在 极小存储中的稳定 排序） 我们说一个排序算法需要极 小的存储空间 ，如 
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果除了存储 N 个记录所需的空间外，它的变量仅使用 0(( log 2 N ) 2 ) 位存储空间。 

这个算法在下列意义下必须是通用的，即必须对所有的 N 都有效，而不仅仅对一个 
具体的 N 值有效，其中假定当实际调用这个算法来进行排序时，已经有充分数量的 
随机存取内存可资利用。 

我们已经研究过的许多排序方法，都违背了这个极小存储的 要求； 特别是，使用 
N 个链接字段是禁止的，快速排序（算法 5.2.2 Q ) 满足极小存储要求，但它最坏情况 
的运行时间竟同 JV 2 成正比。堆排序（算法 5.2.3 H ) 是我们所研究过的惟一使用极 
小存储 0( iVl O g 2 N ) 的算法，尽管利用习题 5.2.4-18 的思想，还可描述另一个这样的 

算法。 

我们前面所研究的、以一种稳定的方针对键码排序的、最快的一般算法是表合 
并排序（算法 5.2.4 L ), 但它不使用极小存储。事实上，我们已经见到的稳定的极小 
存储排序算法都是 n (/ v 2 ) 的方法（直接插入，冒泡排序以及直接选择的一种变种）。 

试设计一个稳定的极小存储排序算法，它在最坏的情况下仅需 0( JV ( logN ) 2 ) 
个时间单位[提 示：有 可能在 O ( NlogiV ) 个时间单位内进行稳定的极小存储合并]。 

► 4.[28] 如果一个排序算法完全通过比较键码来做决定，而且它从来不做这样 
一个比较，即此比较的结果可以通过以前比较的结果预测出来，则这样一个排序算 
法称为是吝啬的。问表1中列岀的方法中哪些是吝啬的？ 

5.[46] 排序具有许多相等键码的非随机数据，比排序完全随机的数据要困难 
得多。试设计一个排序标准使得它现在是有效的，而且从现在起大概100年后 
仍然是有 效的； （ H ) 它不包括完全随机的 键码； （ iii ) 它不使用随时间而改变的数据 

集。 

r 

I shall have accomplished my purpose if I have sorted and put in logical order 
the gist of the great volume of material which has been generated about sorting 

over the past few years . 

将过去若干年得到的关于排序的大量材料 
的要旨分好类排好序之日，也即是我的目标实现之时。 

- J.C.H0SKEN(1955) 
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Let’s look at the record 

让我们来查看这个记录。 

- AL Smith ( l 928) 

这一章可以给以更大的标题“信息的存储和检 索”； 另一方面，它也可以简单地 
称做“査表”。我们关心的是在一台计算机的存储中收集信息的过程，以及随后尽可 
能快地进行对该信息的检索。有时，我们面对比我们实际需要的还要多的数据，因 
此最明智的办法是把这些数据的大部分忘掉或 销毁； 但在其它情况下，重要的是，要 
以能进行快速检索的方式保留和组织给定的数据。 

这一章大部分篇幅都致力于研究一个非常简单的查找问题 ：怎样 根据某种确定 
的标记来找出存储好的数据。例如，在一个数值应用中，给定了： c 和一张/值表后 
要求 /( i ); 在一个非数值应用中，可能要找一个给定的俄文单字的英语翻译。 

一般说来，我们将假设， N 个记录的一个集合已经存储好，问题是要找出所要的 
记录。如同排序那样，假定每个记录都包括称为它的键码的一个特殊字段，取这个 
名字也许是因为许多人每天都要花很多时间来找他们的钥匙。 一 般我们都要求 iV 
个键码互不相同，以便每一个键码惟一地标识它的记录。所有记录的集合称为一份 
表或一 个文件 ，“表”在这里通常用来表示一个小文件，而“文件”通常用来表示一个 
大的表。一个大的文件或一组文件经常称做 一个数据库。 

查找算法中有一个变元 K ， 问题是要寻找以 K 为其键码的那一个记录。在查 
找完成之后，有两种可能 性：或 者这个查找是 成功的 ，已找到含有 K 的惟一记录，或 
者是不 成功的 ，已确定 K 无处可找。在不成功的查找之后，有时希望送人包含 K 
的一个新记录到这份表中，做这项工作的方法称为查找和插人算法。名叫“联想存 
储”的某些硬件设备，以模拟人脑功能的方式自动地解决查找的 问题； 而我们将研究 
在一部通常的通用计算机上来进行查找的一些技术。 

尽管查找的目标是寻找存储在同 K 相关联的记录中的信息，但这一章中的算 
法一般都忽略除键码本身以外的一切。实际上 ，一 旦我们定出 K 的地址，便可找出 
相关联的数据;例如，如果 K 出现在 TABLE + i 的位置中，则相关联的数据（或指向 
该数据的一个指针）可在单元 TABLE — z 十1中，或在单元 DATA + Z 中等。因此，找到 

K 之后，不妨把应该做什么等细节都忽略掉。 

查找是许多程序中最消耗时间的一部分，因而用一个好的查找方法来替代一个 
坏的方法，常常会使运行速度大大提高。事实上，我们通常能把数据或数据结构安 

• 366 - 


6.1 顺序查找 


排好，可完全免去査找，确保我们知道上哪儿去找我们需要的信息。链接存储是实 
现这一点的常用的方法。例如，使用双重链接表就不必查找一个给定项的前驱或后 
继。如果允许我们自由地选择键码，则是査找的另一个方法，因为我们也可以令诸 
键码为数11，2,…， iV |; 于是包含 K 的记录就可简单地放置在单元 TABLE+K 中。 
在 2.2.3 小节讨论的拓扑排序算法中，这两项技术都曾被用来消除查找。然而，如 
果拓扑排序算法中的对象是符号名而不是数，仍然需要查找。在实践中用于查找的 
有效算法变得十分重要的。 

査找方法可用若干种方式分类。我们可以把它们分为内部查找和外部査找，如 
同把第5章的排序算法分为内部排序和外部排序一样。或者可以把查找方法分为 
静态查找和动态查找，其中“静态”指的是表的内容实际上不变（可以使查找时间减 
少到最小而不考虑建立表所需要的时间），而“动态”指的是这个表经常要受到插人 
或许删除的影响。第三种可能的方案是，按照査找方法是以键码之间的比较为基础 
还是以键码的数字性质为基础来分类，就像用比较进行排序和用分布进行排序之间 
的区别那样。最后，我们还可以根据使用实际的键码还是使用变换了的键码来对查 
找方法分类。 

这一章的组织，实质上是后两种分类方式的综合。 6.1 节考虑查找的“硬找”的 
顺序查找的方法， 6. 2节讨论了一种改进的方法，它以键码之间的比较为基础，根据 
字母或数字的顺序作出 判断; 6. 3节讨论数字 查找； 6. 4节讨论一类重要的方法，称 
做散列技术，它是以实际键码的算术变换为基础的。每一节都在静态和动态两种情 
况下，既讨论内部查找也讨论外部 查找； 并且每节都指出各种算法的相对优点和缺 
点。 

查找和排序通常是彼此紧密相关的。例如，考虑以下的问题 :给定 两组数 A = 
q , a 2 ,…， a J 和 B = \ bi ， b 2 , , b n | ，确定是否 AQB 。 这本身提示了三种解，即： 

1. 顺序地把 每个化 同诸6,作比较直到找到一个相同的为止。 

2. 把诸 a 和诸6排序，然后作通过这两个文件的一个序列，校验适当的条件。 

3. 把诸6记人一个表中，然后査找每一个 

上述每一种解法，在 m 和72值的不同范围内都是有吸引力的。对于某个常数 
c,M 1将花费大约 qmn 个时间单位，而对于某个(更大的）常数 c 2 M 2 将花费大 

约 c 2 (m lg m + n lg n ) 个时间单位，对于某个(仍然很大的）常数 c 3 和 c 4 ，使用 一 个 

适当的散列方法，解3将花费大约 c 3 m + c 4 n 个时间单位。由此得出，对于很小的 

m 和 rz ， 解1是好的，但当 m 和 n 增大时，解2很快将变成更好。最后，解3变成可 
取的，直到 n 超过了内存大小为止，然后，解2往往又变得优越，至到 n 变得非常大 
为止。于是我们有这样一种情况：排序有时是查找的一个好替换，而查找有时又是 
排序的一个好替换。 

更复杂的查找问题通常都可以归结成这里所考虑的较简单的情况。例如，假设 
键码可以是稍有拼错 的字； 而可能要在忽略这种错误的情况下仍能找到正确的记 
录。如果我们作一个文件的两个副本，一个副本中键码以通常的字母顺序岀现，另 
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一个则按字母从右到左排好(好像单词是倒过来拼那样），则拼错的查找变元大概将 
同这两个文件之一中的一个项一致到它长度的一半或一半以上。因此 6.2 节和 6.3 
节的查找方法可被用来寻找大概想要的键码。 

一个有关的问题已受到了相当大的注意，它联系到飞机票预约系统及与人名有 
关的其它应用，在这些应用中，经常有可能由于拙劣的手写或声音传输而拼错名字。 
目标是要把变元转换成某个代码，这个代码有助于把同一名字的所有变形都转换成 

同一形式。下述的“探测” （ Soundex ) 方法，最初是由 Margaret K . Odell 和 Robert C . 

Russell 提出的。[参见 L /. S . Patents 1261167( 1918) ， 1435663(1922) 。 ] 它常常用来对 
姓氏 编码： 

1 .保留名字的头一个字母，并且省略在其余位置中岀现的所有 a ， e , h , i , o ， u ， w ， 

yo 

2. 把下列数字赋给头一个字母之后的剩余的字母 

b , f ， p ， v—l 1一4 

c ， g ， j ， k ， q ， s ， x ， z — 2 m ， n — 5 

d ， t — 3 r ~^6 

3 . 如果具有相同代码的两个或多个字母在原来的名字（在步骤 1 前）中相邻，或 
者除开干扰诸 h 和诸 W 之外相邻，则省略除头一个以外的所有字母。 

4. 通过增加尾部零(如果少于三个数字），或者省略最右边的数字（如果有三个 
以上的数字），转换成“字母，数字，数字，数字”的形式。 

例如， Euler , Gauss , Hilbert , Knuth , Lloyd , Lukasiewicz 以及 Wachs 这些名字的 

代码分别是 E 460, G 200, H 416, K 530, L 300, L 222, W 200。 当然，这个系统会把有些 
不同的名字或类似的名字变成同一形式； Ellery , Ghosh , Heibronn , Kant , Liddy , 
Lissajous 以及 Waugh 就得到同样的七个代码。另一^方面，一^些有关的名字，如 

Rogers 和 Rodgers ， Sinclair 和 St . Clair，Tchebysheff 和 Chebyshev , 则仍保持互异。但 

总的说来， Soimdex 代码大大地增加了在伪装的代码中找出名字的机会。[更多的介 

绍，参考 C . P . Bourne 和 D . F . Ford , JACM 8 (1961) ，538〜552； Leon Davidson , 
CACM 5 (1962) , 169^ 171 ； Federal Population Censuses 1790 〜 1890 (Washington D . 
C . : National Archives ，1971) ,90。 ] 

当使用像 Soimdex 这样的方案时，不必放弃所有键码都不同这样的 假定； 我们 
可以造出具有等价代码的所有记录的表组，把每一个表当成一个单位来处理。 

大型数据库势必使检索过程更为复杂，因为人们通常要把每个记录的许多不同 
的字段都当作可能的键码，当只知道部分键码信息时，也有能力来定出项目的位置。 
例如，给定关于戏剧演员的一个大文件，舞台监督可能希望找出25岁到35岁之间， 
具有跳舞天才和法国口音的所有还没有角色的女演员；给定垒球统计的一个大文 
件，一个体育专栏作家可能希望确定1964年在进行晚场比赛的第七个回合,对抗左 
手投手时芝加哥的 White Sox 跑出的总分数。给定关于任何事情的一个大型数据 
文件后，人们会任意地提岀复杂的问题。确实，我们可以把整个图书馆看成一个数 
据库，而查找者可能要寻道已发表的有关情报检索的每份资料。在下面的 6.5 节 

• 368 - 


6.1 顺序查找 


中，将介绍用于此类辅 助键码 （多重属性）检索问题的技术。 

在对查找进行详细研究之前，有必要回顾一下历史。在计算机出现以前，就编 
辑出版了对数表、三角函数表等许多书，使得数学计算可为查表所代替。最后，这些 
表被誊写到穿孔卡片上，并用于同整理机、排序机以及拷贝穿孔机相联系的科学问 
题中。但一旦出现了存储程序的计算机，很 显然： 每次重新计算 logi 或 cosx 比在 
一张表中查出答案要更合算些。 

尽管在计算机出现伊始，排序问题就受到了相当大的关注，但是对于查找的算 
法，工作却做得比较少。由于内存小和只有磁带这样的顺序介质能用来存储大型文 
件，因此查找要么极为容易，要么几乎不可能。 

但是自20世纪50年代起，越来越大的随机存取存储器的发展，最终导致了这 
样一个认识，即查找就其本身的性质而言是一个有趣的问题。在抱怨了好几年早期 
计算机的空间局限性之后，程序员们突然面对着非常大的内存容量，以致不知道如 
何有效使用它。 

关于查找问题最初的一些综述文章如下： A . I . Dumey , Computers 公 Automation 
5,12 ( 1956年 12月），6〜 9; W . W . Peterson , IBM J. Research & Development 1 
(1957), 130 ^ 146; A . D . Booth,Information and Control 1 (1958), 159 〜 164; A . S . 
Douglas , Comp .7, 2(1959) ，1 〜9。后来，下面文章对查找问题进行了更广泛的讨论: 

Kenneth E . Iverson , A Programming Language ( New York ： Wiley , 1962), 133 〜 158, 
和 Werner Buchholz,JBM Systems J. 2(1963) ,86 〜 111 0 

如我们将要看到的，在 20 世纪60年代初期，引进了许多有趣的新的基于树结 
构的查找 方法； 而关于查找的研究现在仍然活跃地开展着。 

6.1 顺序查找 

“从起点幵始往下查，直到找到了正确的键码 为止； 然后停止”。这个顺序过程 
是进行查找的明显方法，这个方法也构成了我们讨论査找问题的一个有用的起点, 
因为许多更错综复杂的算法都是以它为基础的。我们将看到，顺序查找除了简单之 
外，还包含了某些非常有趣的思想。 

这个算法可以更精确地阐述如下。 

算法 S (顺序查找） 给定其键码分别为 X 1 , X 2 ,-, X jV 的记录…， i? N 

的一个表，这个算法查找一个给定的变元 K ， 假定 N >1 0 

S 1 •[初始化]置 i — 1。 

S 2 •[比较]如果 K = K 2 .，则此算法成功地结束。 

S 3 •[前进] i 增加 1。 

S 4 •[文件结尾？]如果则返回 S 2。 否则此算法以失败 告终。 | 

注意，这个算法可以以两种不同的方式结束， 即成功 （已定出所需键码的位置）， 
或 不成功 （已证实给定的变元不在该表中）。这一章中大多数其余的算法都同样如 
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1 _ 

SL 初始化 



此 


一个 MIX 程序可立即写出来。 

程序 S (顺序查找）假定反.出现于单元 KEY + z 中，记录氏的剩余部分出现 

在单元工 NFO + i 中，下列程序使用 rA 三 K ， rll 三 i - N 0 


01 

START 

LDA 

K 

1 

si. 初始化 

02 


ENT 1 

1 - N 

1 


03 

2 H 

CMPA 

KEY + N ,1 

C 

52 . 比较 

04 


JE 

SUCCESS 

C 

如果尺=&，转出 

05 


INC 1 

1 

c - s 

S3. 前进 

06 


J 1 NP 

2 B 

c - s 

S4 .文件结尾? 

07 

FAILURE 

EQU 

* 

l-s 

如果不在表中，则转出 


现在，在单元 SUCCESS 处指令 “LDA INFO + N , 1”将把所需信息带到 rA 中。| 


对这个程序的分析很直截 了当； 它表明算法 S 的运行时间依赖于两个因素 

C = 键码比较的 次数； 

S = 1，如果 成功； 0,如果不成功。 (1) 

程序 S 花费 5 C -2 S + 3 个时间单位。如果这个查找成功地找到 = 则有 C = 

Z,S = 1; 因此总的时间为 （5 f + 1) Wd 另一方面，如果查找不成功，则有 C = N,S = 

0,总的时间为 （ 5 N + 3 ) m 。 如果每个输入键码都以相同的概率出现，则在一次成功 
的査找中， C 的平均值将是 


1+2 + … + N N + 1 /、 

- N = ⑵ 

当然标准差肯定相当大，约为 0.289 N (见习题 lh 

上述算法所有程序员都熟悉，但是，很少有人知道， 它并不 总是进行顺序查找的 
正确方式！只要作一些直接修改就会使这个方法更快，除非记录表很短。 


算法 Q (快速顺序查找）这个算法和算法 S 相同，惟一的区别是它假定在这个 
文件的结尾存在一个“虚拟”记录 R N + 1Q 

Q 1 •[初始化]置1，并置 K N + 广 K 0 

Q 2 •[比较]如果尺=氏，转到04。 

Q 3 •[前进] i 增加1，并返回 Q 2。 
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Q 4 .[文件结尾？]如果 i < iV ， 则算法成功地 结束； 否则以失败告终0 =以+ 
l)o I 


程序 Q (快速顺序查找） rA=K ,rll = i - N 0 

01 START LDA K 1 


KEY + N + 


1 


- N 


1 


02 

STA 

03 

ENT1 

04 

工 NCI 

05 

CMPA 

06 

JNE 

07 

J1NP 

08 FAILURE 

EQU 


1 

C + l 

L - S 

KEY + N，1 

C + 1 

L - S 

* 一 2 

C + l 

L - S 

SUCCESS 

1 



1 -S 


Ql . 初始化 

i —0 

Q 3 .前进 
Q 2 ‘ 比较 

如果 K ^ K 转到 Q 3 

Q 4. 文件结尾？ 

若不在表中则转出 ■ 


用量 C 和 S 来分析程序 S ， 运行时间已减少到 （4 C -4 S + 10) W; 在一个成功的 
检索中每当06时，或者在一个不成功的检索中，每当 N >8 时它都是一个改进。 

从算法 S 到算法 Q 的过渡利用了一个重要的“加速”原理：当程序中的一个内循 
环要测试两个或多个条件时，则应该力图将测试减少为只有一个条件。 

另一项技术将使程序 Q 还 要快。 


程序 Q '( 更快的顺序查找） rA=K ,rll = i - N 


01 

START 

LDA 

K 

1 

02 


STA 

KEY + N + 1 

1 

03 


ENT1 

-1 _ N 

1 

04 


INC1 

2 

L ( C-S + 2)/2 j 

05 


CMPA 

KEY + N ， 1 

L ( C-S + 2)/2 j 

06 


JE 

4F 

L ( C - S + 2)/2 j 

07 


CMPA 

KEY + N + 1 ， 1 

L ( C-S + 1)/2 J 

08 


JNE 

3B 

L ( C-S + 1)/2 J 

09 


工 NCI 

1 

(C - S ) mod 2 

10 

4H 

J1NP 

SUCCESS 

1 

11 

FAILURE 

EQU 

* 

1 -S 


QL 初始化 
K N + l ^K 

f —-1 

Q 3 .前迸 （两步） 

Q 2. 比较 

若 K = K t 则转到 Q 4 

•比较 （第二个） 
如果 K 关 K ; + 1 则转 

到 Q 3 
f 前进 

Q 4 .文件结尾? 

如不在表中则转出 ■ 


内循环已被重复；这避免了大约一半的 “i — 2•十1”指令，所以它使运行时间减少 
为 

3.5 C - 3.5 S + 10 + (C ~ S 2 )mod 2 

个单位。当正被查找的是很大的表时，我们已经节省了程序 S 运行时间的30% ;许 
多现存的程度都能以这种方式改进。同样的方法适用于高级语言的编程。[例如， 
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参考 D . E . Knuth ( Computing * Surveys )6(1974) ， 266 〜 269] 

如果我们知道键码是递增次序的，则应稍微改变一下算法。 

算法 T (在有序表中顺序查找） 给定一个其键码为递增次序 1^<尺 2 <0..< 
Kn 的记录 只1 ，只2,…，只 N 的表，这个算法查找一个给定的变元 K 。 为了方便，和快 
捷，本算法假定有一个键码值为 K nm = oo > K 的虚拟记录 i^ N + 1 。 

T 1. [初始化]置1。 

T 2 .[比较]如果 iCgiC , ，转到 T 4。 

T 3 .[前进] f 加1，并返回 T 2。 

T 4 •[相等？]如果 K = 则此算法成功地终止，否则，它以失败告终。 ■ 

如果所有的输入键码都是同等可能的，则当查找成功时，这个算法所花的时间 
实质上和算法 Q 的平均运行时间相同。但当査找不成功时它比算法 Q 快大约两 
倍，因为该算法可以更快地确定 一 ^个记录不存在。 

上述每一种算法都使用下标表示表的项。借助于下标来描述这些方法是很方 

便的，但是同样的查找过程也可用于一个使用链式表示的表中，这是因为数据是被 
顺序地遍历的（见习题2、3和4)。 

存取频率 至今我们一直假定每个变元都以同样频率出现。这并不总是一个 
现实的 假定； 一般情况下，键码将以概率九出现，其中，乂 +化 +…+ p N = l 0 

为进行一个成功的查找所需要的时间实际上同比较的次数 C 成正比， C 的平均值 
为 

Cn = 夕 1 + 2 九 + …+ NpN (3) 

若我们能以任意想要的次序把记录放置到表中，则当 

i 

P \> p 2> …> Pn (4) 

时，即当最经常使用的记录出现在接近开始处时量最小。 

现在让我们考虑若干概率分布，以了解当诸记录以 （4) 中所确定的“最优”方式 
排列时，可能节省多少时间？若仏 = = ^ v = l /7 V , 则公式 （3) 简化为 C N = 

(N +1)/2; 我们已经在等式 (2) 中导出这个值。另一方面，假设 

11 11 
P \ ~ ~2 yPi ~ , Pn -\ - 2N - 1 » Pn = 2N-1 ⑸ 

则由习题7, = 2-2 1_ N ; 若诸记录在表中以正确的次序出现，则对于这个分布，比 
较的平均数小于2。 

另一个可供考察的概率分布是 

Pi = Nc y p 2 = (N - l)c , …， p N 二 c 

其中 

c 二 2/ N(N + 1) (6) 

这个“楔形的”分布不像 （5) 那样厉害地偏离一致分布。在这种情况下，我们发现 
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Cjv = c 2 k(N 1 — k) = N $ 2 (7) 

即此种最优排列比起诸记录以随机顺序出现时节省了大约三分之一的查找时间。 

当然， （5) 和 (6) 中的概率分布是相当人为的，因而它们可能不是现实的非常好 
的近似。 一 个更为典型的分布是 “ Zipf (吉甫)定律” 

Pi 二 cll,p 2 = c!2, …， p N = c / N ， 其中(：= 1/ H n (8) 

这个分布是由 G . K . Zipf 得到的。他发现在用自然语言写的文章中第 n 个最常用 

的单字似乎近似地以与1/„成正比的概率出现[参考 The Psycho-Biology of Lan¬ 
guage ( Boston , Mass . : Houghton Mifflin , 1935) jHurnan Behavior and the Principle of 
Least Effort ( Reading , Mass ： Addison - Wesley , 1949) ] 0 他发现当大城市按递减人 

口数排列时，人口统计表中也有同样的现象。如果吉甫定律适用于一个表中键码的 
频率，则我们立即有 


C N = N / H n (9) 

查找这样一个文件大约比查找按随机次序排列记录的同一文件快 | lniV 倍。 

[参考 A . D . Booth , L . Brandwood 以及 J . P . Cleave y Mechanical Resolution of Lin ¬ 
guistic Problems (New York ： Academic Press , 1958)，79。] 

对于现实分布的另一个近似，是在商业应用中已被普遍地观察到的 “80-20” 估 
计规则[参考 W . P . Heising，IBM System J . 2(1963) ， 114 〜 115]。 这个规则指岀， 

80%的事务涉及文件最常用的20% ;而对这20%适用同样的规则，则使得64%的事 
务涉及最活跃的4%，等等，换言之 


Pi ^ p 2 + •- + p,20n 

Pi + p2 + p3 + + Pn 


^.80 


对所有 n 


( 10 ) 


当 n 是 5 的倍数时，恰好满足这个规则的一个分布是 

pi = C y p 2 = (2 6 - l ) c , p 3 = (3 0 -2 e )c ，…， p N 二 ( N 9 - (N ~ l) d )c 


其中 


( 11 ) 


c = l / N \ 6 = 0.1386 (12) 

因为在这种情况下，对于所有的 72 ，h + /) 2 +〜 + p n ^ cn d o 要分析 （11) 中的概率不 

太 容易； 然而，由于我们有 n e ~(n - l ) 6 = 0 n d ~ [ (l + O ( l/n )) ，所以有一个更简单 
的近似满足 80-20 规则的分布，即 

Pi = cll l - e , p 2 = cl 2 l ~\ p N = clN '' 其中 c = l / H N (1 ~ d) (13) 

如前，这里 0= log 80 /log 20,且 H ( ^ 是阶为 s 的第 N 个调和数，即1〃十2〃十… + 

N _ s o 注意，这个概率分布非常类似于 Zipf 定律 （8); 当0从1变成0时，这个概率 
分布从一个 一 致分布变成一个 Zipf 分布。应用 （3) 到 （13) 得出 

C N = H N ( ~ d ) / H N (l ~ d) = 十 0( N l _ e ) 々0.122 N (14) 
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作为关于 80-20 定律的平均比较数（见习题8)。 

由 E . S . Schwartz 进行的单字频率的研究[参考 /ACM 10 (1963) ，422页上有趣 

的图]，提示磁带有稍微负的0值的分布 （13) 给出比 Zipf 规则 （8) 对数据更好的适 
合，在这种情况下，当 N — oo 时均值 

一 \rl + 0 

C N = H ( N 6) lH ( ^- d) = (1 + 0 ^ (1 + O ( N 1+20 ) (15) 

比 (9) 要小得多。 

类似 （11) 和 （13) 的分布，首先是由 Vi If redo Pateto 在同个人收入和对财富的不 

—^致性相关联中研究的[参考 Cours dEconomie Politique 2 ( Lausanne : Rouge , 1897 ), 

304 〜 312]。 如果九 与第々 个最富有的人的财富成比例，当 x = p k lp N 时一个人的 

财富超过或等于最穷的人的 x 倍的概率是 A / N 。 因此，当九= 0^ _1 和 x = ( klN) d ~ l 

时所述的概率是: c _1/(1 现在把这叫做磁带有参数1/(1-幻的 Paret ◦分布。 

奇怪的是， Pareto 不理解他自己的 分布； 他相信，接近于0的一个0值要比接近 
于1的0值对应于更平等的社会！他的错误是由 Corrado Gini 改正的[参考 A 出 

della M Riunione della SocietA Italiana per il Progress。delle Scienze ( 1910) ，在 
Memorie di Metodologia St a tistical ( Rome : 1955)，3 〜 120 重印]。他是第一个陈述和 

阐释像 80-20 定律 （10) 的比的重要性的人。人们仍然倾向于误解这样的 分布； 他们 
通常谈到“75 -25 定律”或 “90- 10定律”，就好像仅当 a + 6 = 100时 ， a - 6定律才 
有意义，而 （12) 表明，80 + 20的和是十分无所谓的。 

类似于 （11) 和 （13) 的另一个离散分布是由 G . Udny Yule 在假定各种进化模型 
时，研究作为时间函数的生物品种的增加时引进的[参 考 Philos . Trans • B 213 
(1924)，21〜87]。当0<2时， Yde 的分布 适用： 

pl = c ， pl = 2^~6^ p3 = (3 - 6)(2 - ey …， pN 二 

(N - l)!c = c 

(N - 6)--(2 - Q ) = (N - d 、 

\N - 1/ 


(N - 

二 6 * N / 

c 二 1 - 6 * IN - d\ 

1_ ( N ) 

当 0 = 0 或 <9=1 时极限值 c = HH N 或 c = l/N 。 


( 16 ) 


一 个“自组织”的文件 上述对于概率的计算看起来挺不错，但是在大多数情况 
下并不知道概率是多少。我们可以在每个记录中建立一个计数器来记住它被存取 
的次数，在这些计数的基础上重新分配记录；上边导出的公式告诉我们，这个过程通 
常能节省不少运行时间。但是或许我们不想提供那么多的存储空间来作计数字段， 
因为通过利用在这一章稍后将要说明的非顺序查找技术，我们可以更好地利用内 
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存。 

有一种简单的方案，可用来把各记录按一种相当好的次序存放而无需使用附加 
的计数字段。尽管并不知道这个方案的来源，但它已经使用多 年了： 每当一个记录 

被成功地定址时，便把它移到表的开头。 

这个“自组织”技术的思想背景是，当需要查找常用的项目时，应在相当接近于 

表的开头处找到它们。若假定 iV 个键码分别以概率丨仏，02,…，出现，而每次 

査找又完 全独立 于先前的查找，则可以证明，在这样一个自组织的文件中为寻道一 
个项目所需要的比较的平均数趋于极限值 



C N 


1 + 2 2 





(见习题11)。例如，若当 1« N 时有九 = 1/ N ， 则自组织表总是以完全随机的次 
序出现，且这个公式简化为上面所熟悉的公式 （N + 1)/2。一般，比较的平均数 （17) 

N 

总是小于最优值 （3) 的两倍，因为 C n <1 + 2 2 (;-1)^=2 C n -1 o 事实上 ， C n 

J = 1 

总是小于 k /2 乘最优值 C N [参考 Chung , Hajela , 和 Seymour , J . Comp Syst Sci ， 36 

(1988)，148 〜 157]; —般，这个比是最好的常数，因为当朽和1//成正比时，它是接 


近的。 

现在让我们看看当键码的概率服从 Zipf 定律 （8) 时，自组织过程的效果如何。 
由等式 1.2.7-(8) 和 1.2.7- (3)，我们有 






N 

+ c 2 (Hn 十 / _ H ，） = 

1=1 



E 

KiJ^N 




2N N 

j + cSH, -2 c2h z 

Z i = l r = 1 




2 


+ c ( (2 N + 1) H:n - 2 N — 2( N + 1) H/v + 2 N ) 




+ c(N In 4 - In N + 0(1)) ^ 2 N/lg N (18) 

当 N 相当大时，这比 jiV 要好得多，而且它仅仅为最优排列中所得到比较次数的大 
约 In 4〜 1.386 倍; 参见(9)。 

有关实际编译程序符号表的计算经验指出，自组织方法的效果甚至比我们的公 
式所预料的更好，因为逐次的査找并不是独立的（小批的键码趋向于成串出 现）。 

John McCabe [Operations Research 13 (1%5), 609 〜 618 ] 首先分析了这个自组 

织方案，他建立了（17)。 McCabe 还介绍了另一个有趣的方案，其中每个成功地找到 
的、已不在表开头的关键字，只是简单 地与前面的键码互换 ，而不是总被移到前端。 
他猜想，假定是独立查找，这一方法的极限平均查找时间决不超过 （ n ) D 事实上，后 
来 Ronald L . Rivest 证明，除了当 N <2 时或当所有非零概率都相等之外（这是当然 
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的），此换位方法严格地使用比移至前头方法要少的比较 [CACM 19 (1976),63 - 


67]。然而，对渐近极限的收敛要比移向前端的磁带启发式的查找要慢得多，所以除 
非这一过程被拖延，否则移向前端的方法更好， [ J . R . Bitne r SJCOMP 8 (1979),82 


110] 0 况且, J . L . Bentley , C . C . McGeoch , D . D . Sleator 和 R . E . T arj an 已经证明，给 


定对于数据的任何访问序列 


即使算法知道未来，移向前端的方法决不会做比任 


何关于线性表的算法所作的内存访问总数超出四倍的内存 访问； 频率计数和交换位 


置方法就没有这个属性 [CACM 28 (1985) 202〜208,404〜411 ]。有关由 R . 
Bachrach 和 R . El _ Yaniv 所作的关于自组织表多于40种的带启发式査找的有趣的 
经验研究，参见 SODA 8 (1997) 53 〜 62。 


对于不等长记录的磁带查找 现在让我们把问题提升到一个新的 难度： 假设正 
在查找的表存储在磁带上，并且个别记录有可变的长度。例如，在一个旧式的操作 
系统中，“系统库磁带”就是这样一个 文件； 标准的系统程序，诸如编译程序、汇编程 
序、装入程序、报告生成程序等，都是这条磁带上的“记录”，而大多数用户作业一开 
始就要从头至尾查找此磁带，直到读人适当的程序为止。这种体制使我们以前对算 
法 S 的分析已不适用。因为步骤 S 3 在每次执行时所花费的时间是变化的。因此， 
比较次数并不是惟一重要的准则。 

设 L 是记录氏的长度 ， A . 是记录被找到的概率，则这个查找方法的平均运行 
时间近似地同 

+ /?2( + L 2 ) + …+ Pn(L\ + L 2 + L 3 + 4, * + L n ) (19) 

成正比。当 Li = L 2 =…= L N = 1时，此式简化为 （3) ，这是已经研究过了的情况。 

把最经常需要的记录放在磁带的开头好像是合乎逻 辑的； 但有时这却是个坏主 
意！例如，假定磁带仅包含两个程序 A 和 B ; 对 A 的需要是对 B 的需要的两倍，而 

A 的长度却是 JB 的四倍。于是 ， N = 2,=吾，= 4, = 士，= 1。如果首先 

把 A 放在磁带上，按照上面所述“合逻辑的”原理，则平均运行时间是= 


但如果使用一个“不合逻辑”的想法，首先放置 B ， 则平均运行时间就被减少到 



11 
3" ° 


在库磁带上程序的最优排列可以确定如下: 


定理 S 设 L t 和/>,•定义如上，则当且仅当 

PilL l > p 2 l L 2 > …> Pn / J^n (20) 

时表中记录的排列为最优。 换言之，当且仅当 （20) 成立时，对于11,2,…，] VI 的所有 
排列 a 1 a 2 ttt a N , p a L a + p a ( L a + L a ) + …+ 九 （ L a + …+ L a ) 的极小值等于 

11 2 1 2 N 1 N 

(19)。 

证明假设尽和民 + 1 在磁带上 互换; 则代价 （19) 就从 
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…+ Pi (^\ + + L t _! + L { ) + + …+ L i+1 ) + ••- 

变成 …+ 九 + 1 (Li + …+ L { -i + L i + 1 ) + △(Li + …+ L ! + 1 ) + … 

纯变化为 PiL i + l - p 1+1 L i 0 因此，如果九/匕< A + i / L 1 + 1 ，则这样一个交换将改进 

平均运行时间，因而给定的排列就不是最优的。由此得出， （20) 在任何最优的排列 
中成立。 

反之，假定 (20) 成立； 我们需要证明排列是最优的。刚才给出的论证表明，这个 
排列是“局部地最优的”，其意义是交换相邻元素不会导致 改进； 但可以设想有一个 
长的复杂的交换序列，它导出一个更好的“全局优化”。我们将考虑两个证明，一个 
证明使用计算机科学，一个使用一个数学技巧。 

第一个证明 假定 (20) 成立。我们知道，通过相邻记录的一系列交换，记录的 
任何排列可以被排成次序 i ^ i ^ 2 …只 N 。 每次交换都对某个； < j 以…尺只/••代替… 

RjRi - ，所以它使查找时间减少了非负量 Ah _ PjL , o 因此次序心必定有 
极小的查找时间。 

第二个证明把每个概率九代之以 

p .( e ) = p . + / - J 十…+ ^)/ N (21) 

其中 < 是极其小的正数。当 < 充分小时，决不可能有： cdiG ) +…+ x N p N ( e ) = 
: Vi 夕 1(() +…+ yNpN ( ^ ) ，除非 X X = 3^ r ** , x N = : y N ; 特别是，等式在 （20) 中将不成立。 

现在考虑记录的 N ! 个 排列； 至少其中有一个是最优的，且知道它满足 （20); 但是由 
于没有等式，故仅有一个排列满足（20)。因此只要 < 充分小， （20) 就惟一地表征了 
概率为 aG ) 的表中诸记录的最优排列。由连续性，当 < 被置为0时，同一排列必然 

也是最优的（在与组合最优化有关的问题中，这种“解结”类型的证明通常是有用 
的） 0 ■ 


定理 S 是由 W . E . Smith 在 u Naval Research Logistics Quarterly 3(1956) ， 59 〜 66 

中给出的。下面的习题包含了有关最优文件安排进一步的结果。 

习题 


1 - [ M 20 ] 当所有的査找键码都有相同的査找概率时，在对一个有 JV 个记录的表进行成功的 
顺序査找中，所作比较次数的标准差是多少？ 

2 . [ 15 ] 利用链接存储记号代替下标记号，重新叙述箅法 S 的诸步骤（如果 P 指向表中的一个 
记录，则假定 KEY ( P ) 是键码， INFO ( P ) 是相关的信息，并假定 LINK ( P ) 是指向下一个记录的指针, 
FIRST 指向头一个记录，最后的记录指向八）。 

3- [ J 6] 写出习题2中算法的一个 MIX 程序。如果用 （1) 中的量 C 和 S 来表达，你的程序运行 
时间是多少？ 

► 4. [17] 算法 Q 的思想是否可不用下标记号而用链接存储记号实现（参见习题 2)? 

5.[20] 当 C 很大时，程序 Q ' 当然比程序 Q 快得多。但是否有任何小的（：和 S 值，使程序 
实际上比程序 Q 花的时间多？ 
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► 6. [20] 对程序 Q ' 添加三条以上的指令，使它的运行时间减少到大约 （3.33 C + 常数 ） w 
7.1 M 20] 试利用“二进的”概率分布 （5) 计算比较的平均数(3)。 


8.[ HM 22] 当时，试求/2—⑺时 H [ x ) 的一个渐近级数。 

► 9.[ M 28] 正文指出，当0<0<1时，由（11)、（13)和 （16) 给出的概率分布大致是相等的，而且 

利用 （13) 的平均比较数是4^/+ CKAr 1 — 0 )。 

a ) 当使用 （11) 的概率时，平均比较数是否也等于 

+ o(N 1 - 0 ) 

b ) (16) 等于多少？ 

c ) 当(9<0时， （11) 和 （16) 如何同 （13) 进行比较? 

10. [ M 20] (4) 确定了在一个顺序表中诸记录最好的 排列； 什么是最坏的排列？证明在最坏 
的排列中的平均比较数与最好的排列中的平均比较数的简单关系。 

11. 本题的目的是分析通过移向前端的磁带启发式査找的一个自组织文件的极限特性。首先 

我们需要定义一些记 号：设 九（^，: r 2 ，…，是所有不同的有序积 a 七… a 的无穷和，其中 

1 

l ^ z ' l ，…， 且每个 h ， X 2 ,…，都出现在每 一 项中。例如 






X ) (工 1 十 M 工 + ： y )* + y l ^ J x(x + 




X 


I - x - y\l - x 


+ 


1 一 汐 


给定 n 个变量 Uph 


P 


nm 


参《» 

9 


E 


，:^丨的集合 x , 令 




y 


); 


Q 


s 


1<八< … <) 


K 八 〈… <)一< 


1 - Xj 


— 工 


例如， 尸32 = f 人工 \ ，工 2 ) + / 2 ( 文 1 ,23) + /2 ( A ， 工 3) ， Q 32 


1/(1 一 


尤1 


:r 2 ) + 1/(1 —- x 3 ) + 1/ 


( l - x 2 -: r 3 )。 我们约定置 P 


rtO 


Q 


n0 


a ) 假定正文中的自组织文件已以概率丸响应对项目反的需求，在这个系统运行了很长一段 
时间之后，试证艮将以极限概率成为从前端起的第 W 个项目，其中 


X 


\p 


9 Pi-l ，户 i + l ，…， AiV 1 


b ) 对 m = 1，2，…，把 ( a ) 的结果加起来，我们就得到恒等式 


Pym + P”( n-1) 




PnO 


Q 


nn 


由此证明 


p 


n 


m 




Pn(m-l) + * 


n 


m 



m 



m 


PnO 


Q 


Q 


( n 


m 





n 


m 



m 


Q 


nO 


P 


m 


C ) 计算尺与表前端的极限平均距离 


l ) 5 


然后求值 


C N 




N 


P 4 


12. [ M 23] 当査找键码有二进概率分布 （5) 时，用 （17) 计算为查找自组织文件所需要的比较 


平均数。 


13. [ M 27] 用 （17) 计算楔形概率分布 (6) 的 6 n 。 

14. [ M 21 ] 给定两个实数序列 〈a , o ：2 ，…， a 〉和〈: yi ， ： y 2 ，…，: y 7l 〉，什么样的下标排列 
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a „ 将使.成为极大？什么样的成为极小？ 

I 

► 15.[ M 22] 前文指岀，当仅寻到一个程序时，怎样在一条“系统库磁带”上最优地安排诸程序。 
但对于一条 子程序 库磁带，使用另一组假定更为适合，因为我们希望从这条磁带把一个用户程序 
中调用的诸子程序一起都装入用户程序中。 

对于这种情况，我们假定需要子程序 j 的概率是 P ,， 而不论是否需要其它子程序。例如全然 
不需要任何子程序的概率是 （1 - Py )( l - P 2 ) … （1 - P N ); 而査找恰在装入第个子程序之后结束 
的概率是 Pj ( i - Pj ^)...( i - p N ) o 如果 h 是子程序」的长度，则平均的查找时间实质上将同 

L { P,a - P 2 ) … （1 - P N ) + ( L a + L 2 ) P 2 (1 - P 3 ) … （1 - P N ) + … 

+ ( L ! + L 2 + ■" L n ) P n 

成正比。在这些假定下，子程序在磁带上的最优排列是什么？ 

16. [ M 22] H . Riesel 我们通常需要测试:是否给定的 n 个条件同时全部为真（例如，我们可 
能要测试是否工>0和两者都成立，而且首先应测试哪一个条件并不是一目了然的）。假 
设花费丁，个时间单位测试条件而该条件为真的概率是巧，且同所有其它条件的结果无关。试 

问我们应在什么顺序下来进行测试？ 

17. [ M 23] ( W . E . Smith ) 假设你要做 n 个作业，第 j 个作业花费丁,个时间单位 ，且截止时间 
为 Q 。 换言之，第 j 个作业应该在至多过了 个时间单位之后完成。试问为处理这些作业，什 
么样 的调度将 使极大的延迟 

max ( T a _ D a ， T a + T a - D a ，…， + … + - D a )? 

I 11 2 2 1 2 n n 

极小化？ + 

IS .[ M 30] (连接査找）假定 N 个记录被放置在一个线性数组尺中，记录 R 被查找 

的概率为 A _。 若每次査找都在刚才离开处开始，则这个查找过程称为“连接的”。如果诸连续的查 

找都是独立的，则所需的平均时间为其中 d ( i ， j ) 表示从位置 i 处开始并在 

位置 j 处结束的一次査找所需的时间。若为从圆柱面 i 扫视到圆柱面 j 所需的时间，则这 
个模型可应用到例如磁盘文件的寻道时间上。 

本题的目的是每当30，_;)是卜‘-_;|的一个递增函数时，即每当对于 d '< d 2 <"-< d N ]， 我 
们有的值没有关系），来表征连接查找诸记录的最优设置。 

在这种情况下，证明在所有 N ! 个排列当中，各记录被最优排列的充分必要条件是 p ,< p N < 

- 1 <…< Pln /2」 + 1或者 Pn - …川2'。 (这样，概率的一种“管风琴排 

列是最好的，如图2所示）。提示 ：对于 m ^0, k >0 ,N = 2 R + w + 1 考虑任一排列，其中概率分 
别为 qiq 2'" QkW “ t m o 证明若重新排列 〆 1 <?2 Qk ^ r k …4 〖 1 ，贝 1 j 效果更好，其 

中 W = min ( q L , r , ) , r ■ = max ( ，〜） ，除非对所有 i 和 r ; = ， 或对所有 i ， j ， q : = r { , r \ - 

屮和~ = 0。 当 s 不出现且 iV = 2々+ m 时亦然。 

19. [ M 20] (继续习题 18) 当函数有这样一个性质 ：即对 于所有 + d ( j ， 
0 = c 时，什么是连接査找的最优排列？[例如，当我们不知道査找的适当方向时，在没有回读能 
力的磁带上就出现这种情况。比如，对于/<夂我们有，30，^) = 0 + 6(1^ + 1 +〜+与）和 

= a + 6( L ^ + 1 + …+ L n ) - t - r + 5(1^ + … + !^)，其中，厂为重绕时间。] 

20. [ M 28] (继续习题 18) 对于— ，什么 

是连接査找的最优排列？[例 如：在 两路链接的循环表中，或者在一个两路移位寄存器的存储设备 
上就岀现这种情况。] 
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P i Pi 



图2概率的“管风琴排列”使一个连接査找的平均寻找时间极小化 

21.[ M 28] 考虑一个 n 维立方体，其顶点坐标为（4 ，…， 心），且 < 二 0或1;两个有一坐标不 
同的顶点称为相邻的。假设有2” 个数別 :的一个集合，以使 S … ■ lx , _ % | 成为 

极小这样一种方式，赋于 2 n 个顶点，其中的求和是对于所有的 2 和 ； 进行的，而且要使&和&是 
赋给相邻顶点的两个数。试证 明：若 对所有 j ， x } 都被赋给一个这样的顶点，该顶点坐标的二进表 
示恰为则达到上述极小值。 

► 22. [20] 假设你要査找一个大型文件，不是査找相等的，而是找出最接近于一个给定键码的 
1000个记录。最接近的意义是 ：对于 某个给定的距离函数1这1000个记录的^&，尺）值为最 

小。试问对于这样一个顺序查找，什么数据结构最为适合？ 

Attempt the end;and never stand to doubt ; 
Nothing’s so hard , but search will find it out . 

尝试宜穷尽，半途勿 犹豫； 天下无难事，探 k 将获解。 
- ROBERT HERRICK Seeke and finde ( 1648) 

6.2 通过键码比较进行查找 

在这一节中，我们将讨论以键码的一个线性次序，例如，以字母顺序或数值顺序 
为基础的查找方法。在对给定的变元 K 和表中的一个键码&进行比较之后，分别 

取决于尺<1^，尺=1^或尺>尺,，这个查找以三种不同的方式继续。 6.1 节的顺序 

查找方法实际上局限于两路判断 = 和 K 关 K ,)。 但如果我们摆脱顺序存取的 

限制，就可以有效地利用一个次序关系。 

6.2.1 査找一个有序的表 

如果某人递给你一本大电话簿，而且请你找一个人的名字，此人的电话号码是 
795 -6841, 那你该做什么呢？处理这个问题，没有比 6.1 节的顺序方法更好的方法 

了。（是的，你可以尝试拨这个号码并且同回话 者谈; 或者你可能知道如何找到以号 
码而不是以名字排序的一本特殊的电话簿。）问题在于通过当事者的名字而不是通 
过号码来找一个项目要容易得多，尽管在电话目录中包含了这两种情况下所需要的 
所有信息。当必须查找一个大型文件时，顺序扫描几乎是办不到的，而一个次序关 
系却大大地简化了这项工作。 

使用已经讨论过的许多排序方法（第5章），把文件重新排为有序的，使其便于 
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查找，这不会太困难。当然，如果只需对这个表查找一次，则进行顺序查找比对这个 
文件进行完整的排序 要快; 但如果要在同一文件中进行重复查找，那么，更好的方法 
是把它按序排列。因此在这一节中，我们将集中研究这样一些方法，假定我们能够 
容易地存取在任一个给定位置的键码，则这些方法适于查找其键码满足 

Ki < K 2 < …< K n 

的表。在这样的表中，比较 K 和&后，我们有 

•尺<1^•[不必考虑，…，仏丄或 

= [查找完成]，或 
• K > K ，[不必考虑…，尺] 

除非 i 靠近该表末尾，这三种情况均已获实质性进展，这就是为什么次序能引出一 
个有效的算法的原因。 

二分查找 最先想到的一个方法是从 K 同表的中间键码比较开 始的； 这个探 
查的结果指出下一次应该查找表的哪一半，并可再次使用相同的步骤，比较 K 和选 
中的一半的中间键码，等等。在至多进行了大约 lgiV 次比较之后，或者找到这个键 
码，或者确认它不存在。这个步骤有时称为“对数查找”或“二等分法”，通常称为二 
分查找 ，如图3 所示。 



成功 

图3二分査找 


尽管二分查找的思想比较直截了当，但其细节可能令人惊讶地复杂，而且许多 
好的程序员在他们头几次试用时竟把它弄错了。这个算法的最普遍的正确形式是 
利用两个指针 Z 和〃来指岀当前查找的下限和上限 如下： 

算法 B (二分 查找） 给定其键码在递增次序下 W … < K n 的记录 
r 2 , …， r n 的一个表，本算法查找一个给定的变元 k 。 

B1 •[初始化]置 l — l , u — N 0 


381 



第 6 章 查找 


B2 •[取中点](这时我们知道如果 K 在此表中，则它满足下面 

习题1中有关于这种情况的一个更精确的陈述。）如果则这个算法 
以失败告终。否则，置 L(Z + w )/2」， 这是该表区域的近似中点。 

B3 •[比较]如果尺<]^，转到 B 4; 如果尺>&，转到 B 5; 如果 K 二&，则算法 
成功地结束。 

B 4 •[调整 w ] 置 w —Z - 1，并返回 B 2。 

B5 •[调整 Z ] 置 Z —i + 1， 并返回 B 2。 I 


图4说明了这个该二分査找算法的两种情况，第一个是查找变元 653 ,它在表中 
出现，而后查找400,它不存在。方括号指岀 Z 和“，下边划线的键码表示 K ,。 在这 

两个例子中，进行了四次比较之后，查找结束。 

a ) 查找653 


[061 087 

154 

170 275 

426 

503 

509 

512 

612 

653 

677 

703 

765 

897 

908] 

061 087 

154 

170 275 

426 

503 

509 

[512 

612 

653 

677 

703 

765 

897 

908] 

061 087 

154 

170 275 

426 

503 

509 

[512 

612 

653] 

677 

703 

765 

897 

908 

061 087 

154 

170 275 

426 

503 

509 

512 

612 

[653] 

677 

703 

765 

897 

908 

b ) 查找 400 













[061 087 

154 

170 

275 

426 

503 

509 

512 

612 

653 

677 

703 

765 

897 

908] 

[061 087 

154 

170 

275 

426 

503] 

509 

512 

612 

653 

677 

703 

765 

897 

908 

061 087 

154 

170 

[275 

426 

503] 

509 

512 

612 

653 

677 

703 

765 

897 

908 

061 087 

154 

170 

[275] 

426 

503 

509 

512 

612 

653 

677 

703 

765 

897 

908 

061 087 

154 

170 

275] 

[426 

503 

509 

512 

612 

653 

677 

703 

765 

897 

908 


图 4 二分査找的例子 


程序 B (二分 查找） 如同在 6.1 节的程序中那样，我们这里 假定圮 是出现在 
单元 KEY+f 中的全字长键码。下列代码使用 rIl = /, rI 2^ w , rI 3= z 0 


01 

START 

ENT1 

1 

02 


ENT2 

N 

03 


JMP 

2F 

04 

5H 

JE 

SUCCESS 

05 


ENT1 

1,3 

06 

2H 

ENTA 

0,1 

07 


INCA 

0,2 


1 B 1. 初始化 1—1 

1 u—N 

1 转到 B 2 

C 1 如果 K = K t 则转移 

C 1 - S B 5. 调整 L y l^*~i + 1 

C + 1 - S B 2 .取中点 

C + 1 — S rA — 1 十 u 


08 

09 

10 


SRB 1 

STA TEMP 

CMP1 TEMP 


C + 1 - S rA ^-[ rA /2 j(rX 也改变) 

c + i-s 

C + l-S 


11 


JG FAILURE C + l-S 如果 w < Z ，则转移 
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12 

LD3 

TEMP 

c 

f — 中点 

13 3H 

LDA 

K 

c 

B 3. 比较 

14 

CMPA 

KEY, 3 

c 


15 

JGE 

5B 

c 

如果则转移 

16 

ENT2 

-1,3 

C 2 

B 4. 调整 u - 1 

17 

JMP 

2B 

C2 

转到 B 2 



这个步骤不像我们见过的其它算法那样同 MIX 十分“光滑地”融成一体，因为 
MIX 不允许在变址寄存器中作许多算术运算。运行时间为 （18 C - 10 S + 12)“ ，其中 
C 二 C 1+ C 2 是所作的比较数（即步骤 B 3 被执行的次数），以及 S = [结果是成功 
的]。在这个程序的08行处的“右移一个二进位”仅在 MIX 的二进制版本上是合法 
的； 对于一般的字节大小，这条指令应该以 “ MUL = l //2 + 1 = ”代替，从而把运行时间 
增加到 （26 C —18 S +20) w 。 


树表示 为了真正理解在算法 B 中所发生的事情，最好把它想像成一株二分判 
定树，如图5所示，图中 N = 16。 



图5 N = 16 时与二分査找对应的比较树 


当 N 为16时，这个算法所作的头一个比较是 K : K 8; 通过图中的根节点⑧来 
表示。然后，如果 K < K 8 , 则这个算法沿着左子树，比较 K 与尺 4; 类似地，如果 


K 8 ，则使用右子树。 


个不成功的查找将通向编号为@到®的一个“外部”方形节 


点； 例如，我们达到节 点间当 且仅当 K 6 < K < K 7o 

在 N 个记录上进行二分查找的二叉树可以构造如下 ：如果 N = 0, 则这个树是 


0，否则根节点是 
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左子树是有 「 iV /2 l - 1个节点对应的二叉树，右子树是有「 N /21 个节点对应的二叉 

树，而且所有节点号都增加 「 N /21。 _ 

类似地，任何借助于比较法查找长度为 N 的一个有序表的算法，都可以表示成 
一株 iV 节点的二叉树，其中节点用 卜 N 编号（除非算法作多余的比较）。反之，任 
何二叉树都对应一个查找有序表的有效 方法； 我们简单地以对称次序从左到右地对 


诸节点编号 


0 




如果在算法 B 中输入的查找变元是 K 1() ， 则此算法进行 K > K 8 , K < K 12 ,K = 

K 1() 的比较。这对应于图5中从根到⑩的通路。类似地，对其它键码来说，算法 B 的 

行为对应于从这株树的根导岀的其它通路。因此，构造对应于算法 B 的二叉树的方 
法，使我们易于对 N 用归纳法证明下列结果。 


定理 B 如果 2〃 igiV < ，则利用算法 B 进行一个成功 的查找需要作 （min 
1 , max A ) 次比较。 如果 N = 2 k - 1，则 一 个不成功的查找需要 k 次比较；如果 2 k 
N <2 k -1，则一个不成功的查找需要 k -1 次或 k 次比较 。 ■ 


对二分查找的进一步分析 （对数学没有兴趣的读者，请跳到等式 （4)) 树表示 
也向我们表明了怎样以一种简单的方式来计算平均比较数。令是在一次成功 

的查找中的平均比较数，假定 N 个键码中每一个都是同等可能的 变元； 并令 
在一次不成功的査找中的平均比较数，并假定键码之间和端点值外部的 N 十1个区 
间每一个都是同等可能的。于是由内部和外部路径长度的定义，我们有 

^ 1 . 树的内部路径长度 


C 



N - 


树的外部路径长度 

N + 1 


我们在等式 2.3.4.5-(3) 中已经看到，外部路径的长度总是比内部路径长度大 2 N , 
因此，在 C N 和匸；；之间有一个相当意外的关系 


C N 二 (1 + jC N - 1 (2) 

这个公式是 T . N . Hibbard 给出的 [JACM 9 (1962) ，16〜 17] ,它对对应于二叉树的 
所有査找方法都成立。换言之，它对于所有基于非冗余比较的方法都成立。成功查 
找比较的方差可用不成功查找比较的方差来表示（见习题25)。 

由上面的公式我们看出，通过比较进行查找的一种“最好的”方式，是在所有具 
有 iV 个内部节点的二叉树中，具有极小外部路径长度的树。幸而，可以证明，在这 
个意义下，对于所有的 N ， 算法 B 是最 优的； 因为我们已经看到（习题 5.3.1-20), 
当且仅当一株二叉树的所有外部节点都岀现在至多两个相邻的级上时，该二叉树具 

有极小路径长度。由此得出，对应于算法 B 的树的外部路径长度为 

(N + l)(LlgNj + 2) - 2 LlgNj+1 ⑶ 

(见等式 5.3. 1-(34))。由这一公式和 （2) 我们就能计算精确的平均比较数，并假定 
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所有査找变元都是同等可能的。 


N = 1 2 

Cn = 11 




5 


6 


7 


8 


9 


10 11 12 13 14 15 16 


1 2 3 5 7 9 

2 ^ 242 ^- 242 ^ 2^3 


5 


6 


7 


8 


9 


10 


3:4 3矣3真3:4 3 6 


12 13 14 15 16 


Cn 


11 


2 



2 


2 — 2 — 2 ~ 3 
z 5 6 7 


O 1. , A3A3A 3IO3I2 3 14 4 


9 


10 11 12 13 14 15 


4 


2 _ 

17 


一般，如果 A = Llg N 」， 则我们有 

C N = k + 1 - (2 k+1 - k - 2 )lN = lg ] V-l + f + U + 2)1 N 

(4) 


C 、二 々 + 2 - 2 k + l l(N + 1) = lg(N + 1) + / 

其中 <0.0861， 参见等式 5.3.1 〜 （35)。 

总结 ：算法 B 决不做多于 Llg N 」+ 1 次比较，而且它在一次成功的查找中平均 
进行大约 IgN - l 次比较。再没有比这更好的基于比较的查找方法了。如果我们假 
定这个查找的所有结果都是同等可能的，则程序 B 的平均运行时间近似为 

(181 gN - I 6 )u 对于一次成功的查找 (5) 

(181 gN + 12) u 对于一次不成功的查找 


一 个重要的变形 不使用上述查找中的三个指针/，；和〃，而仅使用如下两个 
量即当前的位置 i 和它的变化速度 以在每 次不相等的比较之后，我们可以置 
±5和心2(近似地）。这样做是可能的，但正如下面的算法中那样，对其细节需 
极端小心才成，简单化的解决方法注定会引起失误！ 

算法 U (均勾的二分查找） 给定一个其键码处于递增次序… < K n 
的记录 i ^,_ R 2 , …， i ^ v 的表，本算法查找变元 K 。 如果 iV 为偶数，则算法有时将涉 
及一个虚拟键码 K Q ， K Q 应被置成-⑺（或小于 K 的任意值）。我们假定 N >1 0 

U 1. [初始化]置 「 N /2 l ， m — LN /2」。 

U 2 .[比较]如果 KCK :， 转到 U 3; 如果•，转 到 U 4; 如果 K = K t ，算法 

成功地结束。 

U 3.[ i 减值](我们已经认准包含 m 或 m - 1个记录的一个查找 区间“ 恰指 

向该区间的右端）如果 m =0,这个算法以失败告终 D 否则置 i —i - r 77 z /2 l ； 
然后置 Lw /2」 并返回 U 2 0 

U 4.[ z - 增值](我们已经认准包含 m 或 m -1 个记录的一个查找 区间“ 恰指向 

该区间的右端）如果 m =0,这个算法以失败告终。否则置 i —i +「 m /21; 然 
后置 m —「 ttz /2] 并返回 U 2。■ 

图6示出当 iV = 10 时查找对应的二叉树。当査找失败时，此算法可能在结束 
前作一次冗余的比较，如图中阴影节点所示。我们可以称这个查找过程为均勾的， 
因为对于级 Z 上的所有节点来说，在级 Z 上一个节点的号码与它在 Z - 1级上的相应 
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祖宗的号码之差，是一个常数占。 



图6当 N = 10时一株“均匀的”二分査找树 


算法 U 的理论根据可理解如 下:假 如我们要査找的区间长度为 w - l ; 同中间的 
元素 u 是偶数)或者同两个中间的元素之一 u 为奇数）进行比较后，剩下了长度 
为 Ln /2」- 1和「 n /21- l 的两个区间。在重复这一过程々次之后，我们得到了 P 个 
区间，其中最小者长度为 Ln /2~- l , 最大者长度为 「 n /2 M - l 。 因此，在同一级上两 
个区间的长度至多差1;这就使我们有可能选择一个适当的“中间”元素，而无需记 
住精确的长度。 

算法 U 的主要优点是，我们全然不必保持 m 的值，只需要查一张在树的各级中 
使用的各3值的短表。于是，这个算法简化成下列过程，它在二进计算机上或在十 
进计算机上同样适用。 

算法 C (均勾二分查找）这个算法与算法 U 很相像，但它用一个辅助表来代 
替涉及 m 的计算。这个表的项目是 

DELTA [;] = N 对于 l < XLlgN 」+ 2 (6) 

Cl . [初始化]置 i — DELTA [1] ， j —2。 

C 2 •[比较]如果 KCK ,， 转到 C 3; 如果 K > K t 转到 C 4; 如果 K = 此算法 

成功地结束。 

C 3.[ i 减值]如果 DELTA [ j ] =0,此算法以失败告终。否则，置 i — i — 

DELTA [>],；<- 7 + 1，并转到 C 2。 

C 4 .[i 增值]如果 DELTA [ j ]= 0, 此算法以失败告终。否则，置 i — i + 
DELTA [ y ]， j — ;+1,并转到 C 2。■ 

习题8证明，这个算法仅当 N 是偶数时才访问人为的键码 K 0 = -〜。 

程序 C (均匀二分查找）这个程序以 rA=K , rll = £, rI 2=> , rI 3 = DELTA [ 7 ], 

利用算法 C , 所作的事和程序 B 相同。 

01 START ENT 1 N + l /2 1 Cj . 初始化 2_ —L (N + 1 )/2」 

02 ENT 2 2 1 j ^2 
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03 


LDA 

K 

1 

04 


JMP 

2F 

1 

05 

3H 

JE 

SUCCESS 

Cl 

06 


J3Z 

FAILURE 

ci- s 

07 


DEC1 

0,3 

Cl - S-A 

08 

5H 

INC2 

1 

c-i 

09 

2H 

LD3 

DELTA, 2 

C 

10 


⑽ A 

KEY,1 

C 

11 


JLE 

3B 

C 

12 


INC1 

0,3 

C2 

13 


J3NZ 

5B 

C2 

14 

FAILURE 

EQU 

* 

1- S 


如果 K = K 则转移 
如果 DELTA [ j ]=0, 则转移 
C 3. i 减值 



C 2 •比较 


如果 K < K 2 则转移 
C 4. z •增值 

如果 DELTA [>] 7^0则转移 
如果不在表中则转岀 


在一次成功的查找中，这个算法对应的二叉树与算法 B 的二叉树有相同的内 
部路径长度，所以平均比较次数 C N 和以前一样。在一次不成功的查找中，算法 C 

总是恰好进行 Llg N 」+ l 次比较。程序 C 的总运行时间在左、右分支之间不是十分 
对称的，因为 C 1 被赋予的权比 C 2 要大。但习题11表明，同的机会 

大体上 相同； 因此程序 C 近似地花费 

(8.5 lg N - 6 )u 对于一次成功的查找 
(8.5 Llg N 」 + 12 )w 对于一次不成功的查找 ^ ； 

尽管对于程序 B 的运行时间 （5) 还假定 MIX 有一条“右移二进位”指令，如果不使用 

二进计算机的任何特殊性质的话，这个速度相当于程序 B 的两倍多。 

L . E . Shar 于1971年提议对二分查找作另一种修改，这在某些计算机上实现起 
来会更快一些，因为在第一步之后它是均匀的，而且它不需要表。第一步是比较 K 
和 K ,.， 其中 ， i = 2、々 = LlgN 」。 如果 K < K ,， 则对于8等于2^，2卜 2 ,…，1,0使用 

一个均匀查找。另一方面，如果则重置 i 为，，其中 ，/ =「lg (JV 

-2〃 1 )1，并假设头一个比较实际上是尺>尺。且对于8等于2〃 1 ，2卜 2 ,〜，1，0使 

用一个均匀查找。 

图7示岀了当 N =10 时 Shar 的方法。和以前的算法一样，它的比较次数决不 
会超过 LlgN 」 + 1;因此，尽管有时接连通过的某些步骤是多余的，但其比较数至多比 
极小平均比较次数多一次(参见习题12)。 

二分查找还有另一种修正，当 N 非常大时，它提高了所有上述方法的速度，这 
个方法在习题23中讨论，更快的方法见习题24。 

w 斐波那契查找 我们已经看到，在多阶段合并中，斐波那契数可以起到和2的 
乘方相类似的作用。在查找中也岀现类似的现象，在这里斐波那契数为我们提供了 
二分查找的另一个方案。从而得到某些计算机上更可取的方法，因为它仅包含加法 
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图7 当 TV =10时， Shar 的准均匀二叉树 

和减法，没有除以2的除法。我们所要讨论的过程，应同一个确定单峰函数极大值 
位置称为“斐波那契查找”的重要数值过程区别开来[参见 Hfconacd Quarterly 4 
(1966),265 〜 269]; 名称的相似性已经导致了一些混乱。 



0 1 


图8 6阶斐波那契树 


乍一看，斐波那契查找技术似乎非常神秘，如果我们简单地把程序拿来并试图 
看看它在干些什么的话，它似乎是在变魔术。但只要把对应的查找树画出来，神秘 
感立即就消失了。因此，我们将通过考察 斐波那契树来 开始对这个方法进行研究。 

图8示出了 6阶的斐波那契树。与我们已经考虑过的其它树相比，它看起来更 
像现实生活中的灌木，这也许是因为许多自然过程都满足一种斐波那契规律的缘 
故。一般，阶数々的斐波那契树有匕 + 1 -1个内部（圆形）节点和 巧 + 1 个外部（正方 

形）节点，这株树可构造 如下： 

如果々=0或々=1，则此树就是回。 

如果々>2,则树根为圮；左子树是阶数为 A - 1的斐波那 契树； 右子树是阶数 
为々 -2 且所有编号都增加心的斐波那契树。 
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6.2 通过键码比较进行查找 


同一个数，这个数就是一个斐波那契数。例如，在图8中 ，5 = 8- F 4 和11 = 8+ F 4o 

当差是时，左下分支对应的斐波那契差数是，而右下分支的差数降为 F ; _ 2 。 
例如 ，3 = 5- F 3 , 而 10=11_ F 2 。 

如果我们把这些观察同识别外部节点的一个适当的机制结合起来，就得到下列 
方法。 

算法 F (斐 波那契查找） 给定一个其键码处于递增次序 W — CKn 

的记录…， Rv 的表，本算法查找一个给定的变元 K 。 

为了叙述方便，假定 N + 1 是一个完全的斐波那契数心 + 1 。如果提供适当的初 

始化（见习题 14) ，就不难使这个方法对于任何 IV 都有效。 

F 1. [初始化] 置 i — F k ， p — F k _ ' ， q — F k _ 2。 (在整个算法中，和 g 总是相 

继的斐波那契数）。 

F 2 •[比较]如果 K < 反，则转到步骤 F 3; 如果 iOK ,， 则转到 F 4; 而如果 K 

= ]<,•，则算法成功地结束。 

F 3.[ z 减值]如果 g = 0, 则算法以失败告终。否则置 z — 并置 （ tg ) — 
(9，/>-9)，然后返回？2。 

F 4. [ i 增值]如果 p = 1 ，则算法以失败告终，否则置 i — i 十 q ， p — p - g ，然后 

g — 并返回 F 2。 ■ 

以下的 MIX 实现，通过设置两个副本的内循环而贏得了速度，一个内循环把 
放在 rI 2 中放在 rI 3 中，而另一个则恰好把这两个寄存器颠倒 过来； 这便简化了 
步骤 F 3。 事实上，程序在寄存器中真正保留的是1和 g -1, 而不是和 L 为的 
是简化步骤 F 4 的判断> =1?”。 


程序 F (斐 波那契查找） 我们遵循前面的约定 rA ^ K , rIl 三 i ,( rl 2 或 rI 3 )E 


/? - 1, (rI3 或 rI2) = ^r - 1 0 


01 

START 

LDA 

K 

02 


ENT1 

F k 

03 


ENT2 

F k —i - 1 

04 


ENT3 

F k — 2 - 1 

05 


JMP 

F 2 A 

06 

F4A 

INC1 

1,3 

07 


DEC 2 

1,3 

08 


DEC 3 

1,2 

09 

F2A 

CMPA 

KEY,1 

10 


JL 

F3A 

11 


JE 

SUCCESS 

12 


J2NZ 

F4A 


1 F 1. 初始化 

1 i — 


1 

1 

1 


C 2- S-A 

C 2 - S-A 
C 2~ S ~ A 

C 

c 

C 2 

C 2- S 


P 

Q 


< — 


< — 


Fk -1 

Fk - 2 


转到步骤 F 2 
F 4. i 增值。 



q 


P 

q 


P 

Q 


Q 

P 


F 2 •比较 

如果 K < K { 则转到 F 3 
如果 K = K ( 则转出 
如果 p ^ l 则转到 F 4 
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12 


J2NZ 

F4A 

13 


JMP 

FAILURE 

14 

F3A 

DEC1 

1,3 

15 


DEC2 

1,3 

16 


J3NN 

F2B 

17 


JMP 

FAILURE 

18 

F4B 

INC1 

1,2 


C 2- S 如果 p 竽1 则转到 F 4 

A 如果不在表中则转出 

Cl F 3 .i 减值 。 i — i-q 

Cl p — p — q 

Cl 如果 (?>0 则交换寄存器 

1- S-A 如果不在表中则转出 

(18 〜29行与06〜17行 
并行） 


19 

20 

21 F2B 

22 

23 

24 

25 

26 F3B 

27 

28 
29 


DEC3 

DEC2 

CMPA 

JL 

JE 

J3NZ 

JMP 

DEC1 

DEC3 

J2NN 

JMP 


1,2 

1,3 

KEY,1 

F3B 

SUCCESS 

F4B 

FAILURE 

1,2 

1,2 

F2A 

FAILURE 



习题 18 中分析了这个程序的运行时间。图 8 表明，而且分析证明，通常取左分 

支的机会比右分支稍多些。设 C ， C 1 和 （ C 2 - S ) 分别为步骤 F 2、 F 3 和 F 4 被执行 
的次数，则我们有 

C = (ave M //5 + 0(1), max k — 1) 

Cl — (ave kj + 0(1), max k — 1) (8) 

C 2 - S - (ave 75 + 0(1), maxL 々/2」） 

于是取左分支的次数大约是取右分支次数的彡 = 1.618 倍（这是我们能够猜想得到 
的一个事实，因为每个探测都把剩下的区间分成为两部分，且左边部分大约是右边 
部分的4倍那么大）。因此对于一次成功的査找，程序 F 总的平均运行时间近似于 

y ((18 + Ai>)k + 31 - 26< f>)u ^ (7.050 lg N + 1.08 )w (9) 

对于一次不成功的查找，加上 （9-3 幻 w 〜 4.15 w 。 尽管最坏情况下运行时间 
(大约为 8.61 giV ) 稍微慢些，但它比程序 C 更快些。 

内插查找 让我们暂时忘记计算机，来考虑人们如何真正地进行一次查找。有 
时日常生活会向我们提示好的算法。 

想像你自己在一部字典中査一个字，你大概不是从査中间的页开始，然后查 "4 
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有下列项的序列： 

01 13 09 34 29 08 08 

01 13 14 31 52 30 

01 13 43 40 48 

01 13 48 40 30 

01 14 04 26 40 


对这样500个项进行排序的任务，在当时可利用的技术下，确实是非凡的[关于 

进 一 步的细节，参见 D . E . Knuth , Selected Papers on Computer Science (Cambridge 

Univ . Press , 1996) ，第 11 章]。 

把数值排成次序是相当自然的，但是字母或字之间的次序关系并不是那样容易 
看出的。然而对于单个字母的一个整理好的序列已经出现在最古老的字母表中。 
例如，许多圣经赞美诗都有这样的诗句，它遵循一个严格的字母序列，头一个诗句以 
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或3/4处的页，等等，如同在二分査找中那样。你更不大可能去使用斐波那契查找！ 

如果你所要的字是以字母 A 开始的，那你或许会从靠近字典前头的地方开始。 
事实上，许多字典都有“书边索引”，它标出以一个固定字母开始的单字的起始页或 
中间页。这个书边索引技术不难用到计算机上去，而且它将加速査找， 6. 3节中剖 
析了这些算法。 

即使在找到了查找的起始点之后，你的动作也还不太像我们已经讨论过的方 
法。如果你注意到，所要找的字按字母次序比你正在査找的页上的字大很多，则在 
你开始进行下次查找之前，就要翻过好多页。这和上面的一些算法大不相同，那些 
算法并没有对“大得多”和“稍微大些”加以区别。 

这些考虑提示了一个堪称为内插查找的 算法： 当知道 K 位于&和尺„之间时， 

我们可以把下一次探测的位置选在位于 Z 和^之间大约 （ K - K Z )/( K U _ K Z ) 这一 

点上，这里假定键码是数值的，而且键码在整个这一区间里以大体不变的方式增值。 

内插查找渐近地优于二分査找。当表中的键码是随机分布时，则二分查找的每 

一步把査找工作量从 n 降低到而内插查找则把 n 降到士。因此，平均说来，内 

插查找花费 lg lg N 步，把不确定性从 TV 减少到2。 

然而，计算机的模拟实验表明，除非表相，不然内插查找并不把比较数减少到足 
以补偿所需的多余计算的程度。除非 N 超过比如说2 16 = 65536。不然典型的文件 
并不充分的随机，而且 lglgiV 和 lgiV 之间差别并不很大。在查找可能很大的外部文 
件的早期阶段时内插最为 成功； 在这个范围收窄之后，二分查找能更快速地完成任 
务。（注意，用手翻阅词典实质上是一个外部査找，而非一个内部査找，稍后我们将 
讨论外部查找）。 

历史和文献 已知最早的把一长串项目排成顺序以便于查找的例子，是大约公 
元前200年就编制成的、值得注意的巴比伦人的艾娜基比特-安奴 （ Inakibit - Anu ) 倒 
数表。这个陶土做的表包含100对以上的值，它们看来是大约500个多精度的六十 
进制的数和它们的倒数的一个表的开始，并且已按词典顺序排序。例如，该表包括 









2 5 9 

IX 1A 

7 7 12 
2 0 4 2 

2 9 9 6 6 
10 4 4 3 


9 9 8 8 8 
4 4 4 4 4 






a 开始，第二句以 b 开始， 等等； 这有助于记忆。终于，字母的标准序列为闪米特人 
( Semitic ) 和希腊人用来表 示数； 例如， a , /?，/分别表示1,2,3。 

把字母表的次序用于整个的字，是一项更晚些的 发明； 显而易见，但必须教给孩 
子们，而且在历史上的某个时候，曾有必要教给成年人！在爱琴岛上已经发现了大 
约公元300年前的若干表，给出了某些迷信的宗教中的 人名； 这些表按字母排列，但 
仅按头一个字母，因此只表示了自左至右进行基数排序的第一次扫描。公元134〜 
135年间的某些希腊文稿包含了一些分类账的片断，它列出了按头两个字母排序的 
纳税人的名称 。 (Apollonius Sophista ) 在他的长而和谐的荷马诗中（公兀100年），把 
字母顺序用于头两个字母上，而且通常也用于随后的字母上。还有一些更完美的字 
母顺序化的例子非常有名，最突出的有盖伦 Galen 的 Hippocratic Glosses (大约公元 
200年），但这些都是非常罕见的。因此，在圣人 St . Isidorus ^jEtymologiarum (大约 
公元630年，第十册）中，仅按它们的头一个字母来排列词序；而 Corpus Glossary (约 
公元725年）仅使用每个字的头两个字母。后两部著作也许是中世纪编篡的最大的 
非数值方面的数据文件。 

在 Giovanni di Genoa 的 Cathoiicon ( 1286年） 一 书之前，我们还没有见到过对正 
确的字母顺序的专门描述。在他的前言中， Giovanni 说明： 

amo 在 bibo 之前 

afceo 在 adeo 之前 
amatus 在 amor 之前 
imprudens ^ impudens 之前 
iusticia 在 iustus 之前 
polisintheton 在 polissenus 之前 

(由此给出了按第一个，第二个，…，第六个字母排列的情况的例子），其余类推。 
他述说了为想出这些规则所需要的努力。“因此，好读者，我请求你，不要讥笑我这 
巨大的劳动和这个次序是不值钱的。” 

在发明印刷术之前 ， Lloyd W . Daly 对字母顺序进行过详细研究[见 Collection 
Latomus 90 (1967) ，100页]，他发现了某些有趣的旧手稿，它们显然是一些草稿纸， 

上面有按头几个字母排序的一些单字（见该专著的87〜90页）。 

第 一 本英文字典，即 Robert Cawdrey 的 Tabie Aiphabetical / (伦敦， 1604)] 包含下 

列的提示： 

如果你想要查找的字是以 （ a ) 开始的，则在这个表的开头处查找，如果是以 （ v ) 
开始，则在靠近这个表的末尾处查找。又，如果字以 《 ca ) 开始，则在字母 （ c ) 的开头 
处查找，如果以 （ cii ) 开始，则在靠近该字母的末尾处查找，如此类推。 

Gawdrey 在编写他的字典的过程中，看来也曾自学过怎样来编排字母；在最初 
的一些页上，出现过许多放错位置的字，而最后部分的字母顺序就好得多了。 

John Mauchly 在也许是第 一 部出版的关于非数值程序设计方法的书中，首先提 

出 了二分查找 [Theory and Techniques for the Design of Electronic Digital Computers 9 

G . W.Patterson 主编 ，1(1946),9.7 〜 9.8;3 (1946) ,22.8~22.9] 0 这个方法在程序 
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员中“众所周知”，但是似乎还没有人对 N 不具有2” - 1这种特殊形式时的方法作 

过详细讨论[见 A. D. Booth,Nature 176 ( 1955 ) , 565 ; A. I. Dumey, Computers and 
Automation 5(1956 年 12 月 ）， 7 ， 其中 二分查找称为“第二十个问 题 ”； Daniel D. 
McCracken, Digital Computer Programming ( Wiley, 1957 )， 201 〜 203; 以及 M. 

Halpern CACM 1,1( 1958 年 2 月 ） ， 1 〜 3 ] 。 

D . H . Lehmer [ Proc . Symp . Appl . Math . 10(1960), 180 〜 181 ] 显然是第一个发表 
对于所有 iV 都有效的一个二分查找算法的人， H . Bottenbruch 迈出了第二步 [JACM 
9 (1962) ，214]，他介绍了算法 B 的一种有趣的变形，它避免了在最后结束之前单作 
一次相等 判断： 在步骤 B 2 中利用 — 「（ Z + w )/2 l 代替 L(Z + W /2」， 每当时 

置 Z — ;;然后在每一步中 u - l 都减值。最后，当 1 = u 时，我们有 + 

而且再做一次比较即可判断这个查找是否成功（假定开始时这个思想在 

许多计算机上稍微加速了内循环，而且同样的原理可以在这一节中讨论的所有算法 
中 使用; 但是由于式(2)，一次成功的查找平均将要求大约再做一次迭代。由于内循 
环仅执行大约 lg N 次，因此在这一次额外的迭代与一次更快的循环之间的折衷并 
不节省时间，除非 ] V 非常大（见习题23)。另一方面，当表含重复键码时， 
Bottenbruch 的算法将发现一个给定键码的最右出现，而这一性质有时很重要。 

K . E . Iverson [A Programming Language ( Wiley , 1962), 141 ] 给出了算法 B 的过 

程，但是没有考虑到不成功查找的可能性。 D . E . Knuth[CACM 6(1963), 556- 
558] 介绍了算法 B 作为自动画框图系统所用的一个例子。均匀二分查找算法 C ， 是 
1971年斯坦福大学的 A . K . Chandra 向作者建议的。 

斐波那契查找是由 David . E . Fergti SOn [CACM 3(1960),648] 发明的。类似于斐 
波那契树的二叉树早在1910年就出现在挪威数学家 （Axel Thue ) 先驱性的工作中。 
(参见习题28)。没有标号的斐波那契树早在许多年前就出现了，它作为珍品收藏 

在 Hugo Steinhaus 的普及读物 Mathematicai Snapshots [纽约： Stechert ， 1938] 第28 

页； 他把这棵树倒着画，因而看起来像一颗真实的树，树的右分支的长度是左分支的 

两倍,使得所有叶子都在同一级上出现。 

W . W . Peterson 提岀了内插查找 [IBM 丄 Res t & Devel . 1 (1957),131 〜 132 ] ;关 

于它的平均特性的正确分析直到许多年后才被发现。 

习题 

► l .[2 i ] 证 明：如 果在二分査找的步骤 B 2 中则我们有14 = /-1和1<„</<：</^(由约 
定，假定和 K N+1 - +03,但这些人为的键码在本算法中是用不上的，所以它们不必在 
实际的表中出现）。 

► 2. [ 22 ] 如果我们 （ a ) 把步骤 B 5 改为 “Z — T 来代替+ 1”， 则算法 B 是否仍将有效地工 
作？ （ b ) 把步骤 B 4 改为％ —广以 代替％ — 1”呢？ （ c ) 这两个变化都作呢？ 

3. [15] 什么查找方法对应于下页上边的树？什么是在一次成功的査找中所作的平均比较次 
数？在一次不成功的査找中呢？ 
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次査找恰花费 638 个单位时间，则使用程序 B (二 


4. [20] 如果使用程序 6.1 S (顺序査找），一次査找恰花费638个单位时间，则使用程序 B (二 
分査找）须花费多长时间？ 

5. [ M 24 ] 对于 N 的什么值，程序 B 实际上平均慢于一个顺序査找（程序 6.1 Q ') (假定这个查 
找是成功的）？ 

6. [25] ( E . K . Iverson ) 习题5建议我们最好采用一种“混合”方法，即当剩下区间的长度小 
于某个谨慎地选择的值时，就从二分査找变成顺序査找。试对这样一个査找写出有效的 MIX 程 
序并确定最适于“换马”的值。 

► 7.[ M 22] 如果我们改变步骤 U 1 使得 ：（ a ) i 和 m 都置成等于 LN /2」；（ b ) z •和 m 都置成等于 


「 iV /21, 试问算法 U 是否仍将正确地工作？[提示 ：假设 头一步是“置 
到 U4，，]? 


0 , 


N (或 N +1)， 转 


8.[ M 20] 像在 (6) 中定义的那样，令 & = DELTA [ j ] 是在算法 C 中的第 j 个增量。 


a ) 和 D 


Llg NJ+2 


S , 等于什么? 


b ) 在步骤 C 2 中能出现的 I 的极小值和极大值是多少？ 

9. [20] 对于所有的査找变量，算法 B 和算法 C 实现相同的比较序列，在这个意义下，算法 B 
和 C 精确地等价，有无任何 N >1 的值，使算法 B 和 C 精确地等价？ 

10. [21] 说明如何来写包含有近似地 71 g N 条指令和有大约 4.51 g N 单位的运行时间的算 
法 C 的 MIX 程序。 

11 . [ M 26] 作为 N 和 S 的一个函数，求程序 C 的频率分析中 C 1、 C 2 和 A 的平均值的精确 
公式。 

12. [20] 画出对应于 iV =12 时 Shar ■方法的二分査找树。 

13. [ M 24] 对于 l < iV <16, 试编出 Shar 方法所作的平均比较次数表，并且既考虑成功的査 
找也考虑不成功的査找。 

14. [2 i ] 说明怎样推广算法 F , 使它对所有都将适用。 

15. [ M 19] 对于々的什么值 j 阶斐波那契树定义了一个最优査找过程，即平均说来所做的 
比较次数最少？ 

16. [21] 图9示出在斐波那契原来的兔子问题中（参考 1.2.8 节）兔子的线性图表。问在这 
个图表和正文中讨论的斐波那契树之间是否有一个简单的关系？ 

17. [ M 21] 由习题 1.2.8-34( 或习题 5.4.2-10) 我们知道，每个正整数 n 均可惟一地表示 


为斐波那契数之和 n = + F a +… + F a ，其中对于 



i + 2, 且<^>2。试证 


r 


明在々 阶斐波那契树中，由根到节点 ® 的路径长度为 々 + 

18. [ M 30] 作为々、巧 、心 + 1 和 S 的一个函数，求在程序 F 的频率分析中 C 1、 C 2 和 A 的平均 
值的精确公式。 
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初始时 
第一个月 
第二个月 
第三个月 
第四个月 

第五个月 
第六个月 

图9按照斐波那契规则繁殖的兔子对 

19. [ M 42] 对于习题14中建议的算法的平均运行时间进行详尽的分析。 

20. [ M 22] 在一个二分査找中需要的比较次数近似为 log 2 JV ， 而在斐波那契査找中它大约为 

乃) iog 0。 本题的目的是证明这些公式都是一个更一般结果的特殊情况。 

设和 g 是正数，且 p + q = lo 考虑一个査找算法，对于它，给定递增的 N 个数的一份表，首 
先把变元同第 （ an ) 个键码比较，然后在诸较小的块区中迭代这个过程 

(二分査找有;斐波那契査找有 = = 

如果 C ( AO 表示査找长度为 N 的一份表所需要的平均比较次数，则它近似地满足关系式 

C ( l ) = 0； C ( N ) = 1 + pC ( pN ) + qC ( qN ) 对于 N > 1 

这是由于在头一次比较之后，该査找归结为一个 /> JV 个元素的査找的概率（大约〉为/>,归结为一 

个 giV 个元素的査找的概率为 g 的缘故。当 N 很大时，我们可以忽略由于和 gJV 不恰为整数 

这一事实所引起的小阶次的影响。 

a ) 证明，适当选择6,(：(以）=1呢一恰满足这些关系，对于二分和斐波那契査找，6的这个值 
同早先导出的相一致。 

b ) 考虑以下的论点，在这个箅法中，被扫描的区间长度除以 1//) 的概 率是仏 这个区间大小 
除以 1/(? 的概率是“因此平均说来该区间除以 {•( l //0 + < r ( l / g )=2, 所以这个算法和二分査 
找一样好，而不论/>和 g 是什么。”这个论证有错误吗？ 

21. [20] 画出对应于 N =10 时内插査找的二叉树。 

22.1 M 41] (姚期智和姚储枫） 证明： 当把内插査找应用于已经排好序的 N 个独立的均匀随 
机键码时，平均说来，它的一个适当陈述在渐近意义下要求平均 lg IgN 次比较。而且，对于这样 
的表 的所有 査找算法平均必须花费近似 lglgN 次比较。 

► 23. [25] 在本节末尾提出的 H . Bottenbruch 的二分査找箅法，在查找的末尾之前避免作相等 
判断。（在该算法运行期间，我们知道 K < K < K W + 1 ，而且在 L = u 之前，不检査相等的情形）。 

这样一个技巧将使程序 B 对大的 N 运行得更快一些，因为 “JE” 指令可从内循环中撤销。（然而， 
这一思想事实上并不实际，因为 lgiV 通常 很小； 为了补偿在一次成功的査找时所需要的额外的工 
作，要 N >2 66 才行，因为 (5) 的运行时间 (18 lg N -16 h 被减少到 （17. 5 lg N +17) u !) 

证明对应于一个二叉树的每个査找算法，均可修改为如下一个查找算法，这个査找算法在树 
的内部节点处使用两路分支（〈和>)，代替在正文讨论中所用的三路分支 （<, = ，或>)。特别是， 
说明在这种情况下如何修改算法 C 。 

► 24. [23] 在 2.3.4. 5小节和 5.2. 3小节已经看到，完备的二叉树是一种在连续单元中表示一 
株极小路径长度树的方便的方式。试设计以这个表示为基础的一个有效査找方法。[提示 ：在二 
分査找中是否有可能用乘以2来代替除以 2?] 

► 25.[ M 25] 假设一株二叉树对于 A =0，1,…在6级上有&个内部节点和~个外部节点（根 
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在0级），于是在图8中我们有…^，〜，…，〜）^^^ 〆〆 ，^)*^^^，…，^)^ (0,0, 0,4,7, 

2)。 U ) 证明在生成函数 A ( z ) 二 /和/之间有一个简单的代数关系成立。 （ b ) 

一株二叉树的成功查找的概率分布，具有生成函数 g ( z ) = zAU )/ N ; 而不成功的查找的生成函 
数是 / i ( z ) = B ( s:)/(iV + 1) 。（于是在正文的记号下，我们有 C N = mean ( g ) , C ； v = mean (/ i ) ，且等 

式 （2) 给出了这些量之间的一个关系式。）试求 var ( g ) 和 v ar (/0 之间的一个关系式。 

26. [22] 证明斐波那契树同三条磁带上的多阶段合并排序有关。 

27. [ M 30] ( H . S . Stone 和 John Lirm ) 考虑一个査找过程，它同时使用々部处理机，且仅以键 
码的比较为基础。于是在查找的每一步，确定 A 个下标“，…，&，同时进行々个 比较； 如果对于某 

个 = ，则该査找成功地结束，否则，根据 V 种可能的结果 K < K t . 或 ，（ l < j <々） 来 

> J i 

进行下一步骤。 

证明，当 iV — 〜时，这样一个过程必须总是近似地至少平均花费 log A + 1 N 步，其中假定这个 

表的每个键码作为一个查找变元是同等可能的。（因此，比起一部处理机的二分査找来，在速度上 
可能的增加仅是因子 igU + i )， 而不是我们可能期望的因子々。在这个意义下，更有效的是对每 
个处理机赋以不同的独立的査找问题而不是把它们在单一的査找中合并。） 

28. [ M 23] 借助于在二元操作符 * 的代数表达式定义 Thue 树7；如 下：: T Q U ) =工 * ^，7\ 

( x ) = x y T n + 2 ( jo ) = T n + l ( x ) * T n ( x ) 0 

a ) T w 的叶数是当把 Ki ) 完全写出时 o : 出现的个数，试借助斐波那契数来表达这个数 D 

b ) 证明，如果二元操作符*满足公理 

则对于所有 77 z >0 和 n > l t T m ( T n ( x )) = T m+ ^.( x ) 

► 29. [22] (Paul Feldman , 1975) 代替假定 K { < K 2 < … K N ，仅假定 K p(1) < K p(2) < - < 

，其中排列 p ( l ) p (2) … />( A 0 是一个乘方，而且对于的所有偶数值，试证明，通 

过作到至多 2 LlgNj + l 次比较，我们能够找出任何给定的键码 iC , 或者确定 K 不存在。 

30. [27] (乘方的编码）使用上一道题的思想，试找出一种方法，以这样一种方式来安排 JV 个 
不同的键码，即当 m ^ N /4+1-2 1 时，这些键码的相对次序含蓄地对任意给定的 t 位二进 数^, 

工 2 ,的一个数组进行编码。通过你的安排，对于任何给定的），只须作 A 次比较，应有可能 

确定巧 的前导的 々个二 进位，也有可能通过 <2 LlgN 」+ l 次比较找出任意一个键码。（这个结果 

可用于对在时间和空间两方面都是渐近地有效的一些数据结构的理论研究上。 

6.2.2 二叉树査找 

由上一小节我们知道 ，一 株隐含的二叉树结构有助于了解二分查找和斐波那契 
查找的特性。对于给定的 N 值，与二分查找相对应的树，达到了借助键码比较来查 
找一份表所需比较数的理论极小值。但是，上一小节的方法主要适用于固定长度的 
表，这是因为，记录的顺序分配使得插入和删除相当费时。如果这个表动态地变化， 
则我们花费的维护时间可能比在二分查找中查找它们时节省的时间还多。 

使用一个明显的二叉树结构，不但能有效地查找表，而且还能迅速地插入和删 
除记录。因此，我们实际上就有一个对于查找和排序两者都有用的方法。这种灵活 
性的获得，是通过对表的每个记录附加两个链接场来达到的。 

查找一个增长着的表的技术，通常称 为符号表算法 ，因为汇编程序和编译程序 
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以及其它系统程序一般都使用这样的方法以记住用户定义过的符号。例如，在一个 
编译程序内每个记录的键码，可以是某个 FORTRAN 或 C 程序中表示某变量的符 
号标识符，而该记录的其余部分可以包含那个变量的类型及它的存储分配的信息。 
或者说，键码可以是 MIXAL 程序中的一个符号，而该记录的其余部分包含着那个 
符号的等价物。本小节描述的树查找和插入程序可有效地用作符号表算法，特别适 
用于一些希望按字母顺序打印出符号表的场合。 6.3 和 6.4 节描述了其它符号表 
算法。 



6 7 


图10 —株二分査找树 

图10示出包含黄道十一天宫名称的二分查找树。如果我们现在在根处或树的 
顶点处开始査找第12个名字人马座 （SAGITTARIUS ) ,则发现它大于摩羯座 
( CAPRICORN ), 所以我们向 右移； 它大于双鱼座 （ PISCES ), 所以再次 右移； 它小于金牛 

座 （ TAIMJS ), 所以 左移； 它还小于天蝎座 （ SC 0 RP 工0)，所以我们达到外部节点®。这 

个查找是不成 功的； 现在我们可以把人马座链接到树中以代替外部节点这就把 
它插入到了最后的査找位置。这样一来，这个表就能增长而无需移动任何现有的记 

录。图 10就是以一株空树开始，把 CAPRICORN , AQUARIUS , PISCES , ARIES , TAURUS , 
' GEMINI , CANCER , LEO , VIRGO , LIBRA , SCORPIO 诸键码依次插入树中而形成的。 

图10中根的左子树的所有键码，在字符次序上都小于 CAPRICORN , 而右边子 
树中的所有键码，在字符次序上都大于它。对于每个节点的左子树和右子树，类似 
的命题也成立。由此得出，如果我们以对 称次序 来遍历这株树（参看 2.3.1 小节）, 
那么诸键码严格地从左到右组成如下序列 

AQUARIUS , ARIES , CANCER , CAPRICORN , GEMINI , LEO, …， VIRGO 

这是因为，对称次序的原则是 :对每 个节点，先遍历该节点的左子树，接着是该节点 
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本身，然后遍历右子树。 

下列算法详尽地叙述了查找和插入的过程。 

算法 T (树1 查找和插入）给定一个形式如上所述二叉树的记录表，本算法查找 

一 个给定的变元 K 。 如果 K 不在表中，则在树的适当位置插入包含 K 的一个新节 
点。 

假定树的节点至少包含下列诸字段 

KEY(P)= 存于 NODE(P) 中的键码； 

LLINK(P)= 指向 NODE ( P ) 的左子树的 指针； 

RLIM(P)- 指向 NODE ( P ) 的右子树的指针。 

空子树（图 10 中的外部节点）以空指针 A 表示，变量 ROOT 指向此树的根。为方便起 

见，我们假定此树不是空的 （ SP ， R 00 T 关 A )。 因为当 R 00 T = A 时，应该做什么操作是 
显然的。 

T1 ■[初始化]置 P—ROOT 。 （指针变量 P 将沿树下移）。 

T2 •[比较]如果 K < KEY ( P )， 则转到 T 3; 如果 K > KEY ( P )， 则转到 T 4; 如果 K 

= KEY(P), 则査找成功地结束。 

T3 .[左移]如果 LLINK ( P ) 乒 A ， 则置 P — LLINK ( P ) 并转回 T 2, 否则转到 T 5。 
T4. [右移]如果 RLINK ( P ) 关八，则置 P — RLINK ( P ) 并转回 T 2。 

T5 .[插入树](这个查找是不成 功的； 我们现在将把 K 置入树中。）置 
AVAIL , 即一个新节点的地址。置 KEY ( Q)—JC , LLINK ( Q )— RLINK ( Q)—A (实 

际上，新节点的其它场也应予初始化。）如果 1 C 小于 KEY ( P )， 则置 LLINK ( P ) 
— Q ， 否则置 RLINK ( P )— Q 。 （这时我们可置 P — Q ， 并成功地结束此算法）。 


T 1. 初始化 


▼ 



▼ 

图11树査找和插入 


这个算法很便于用机器语言实现。例如，我们可以假定，树节点形为 
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01 

02 

03 

04 

05 

06 

07 

08 

09 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 
21 
22 

23 

24 


程序 T (树查找和插入） rA=K ,rIl=P,rI2 = Q 0 

LLINK EQU 2:3 

RLINK EQU 4:5 

START LDA K i 



LD1 


JMP 

4H 

LD2 


J2Z 

1H 

ENT1 

2H 

CMPA 


JG 


JE 


LD2 


J2NZ 

5H 

LD2 


J2Z 


LDX 


STX 


STA 


STZ 


JL 


ST2 


JMP 

1H 

ST2 

DONE 

EQU 


ROOT 

2F 

0,1 (RLINK) 
5F 
0,2 
1,1 
4B 

SUCCESS 
0,1(LLINK) 

IB 

AVAIL 
OVERFLOW 
0,2(RLINK) 

AVAIL 

1,2 

0,2 

IF 

0,1(RLINK) 

* + 2 

0,1(LLINK) 


1 

1 

C2 

C2 

C- 1 
C 

c 

Cl 

Cl -s 
Cl - s 
1 -s 

1 - s 
1 -s 
1 -s 
1 - s 
1 -s 
l-s 

A 

A 

1 ~ S — A 
1 一 S 


Tl. 初始化 

ROOT 


T4. 右移 ,Q^-RLINK(P) 

如果 Q = A 则转到 T 5 
P—Q 

T2. 比较 

如果 iC>KEY(P) 则转到 T4 
如果 K = KEY(P) 则转出 
T3 •左移 ， Q—LLINK(P) 

如果 Q 关 A 则转到 T 2 
T5 •插入树中 


Q^AVAIL 

key ( q)^-k 

LLINK ( Q )^ RLINK ( Q )^- A 

是 iC < KEY ( P ) 吗？ 

RLINK (P)—Q 


LLINK(P)—Q 

插人后转岀 


这个程序的前 13 行进行 查找; 后11行进行插人。查找阶段的运行时间是 (7C+ ci 


-3S + 4 )“， 其中 


C 


所作比 较数; 
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C 1 二 JK < key ( p ) 的 次数； 

C 2 = K > key ( p ) 的 次数； 

S = 1 [査找是成功的]。 

平均说来，我们有 C 1 = |( C + S )， 因为 C 1 + C 2 二 C , 且 Cl - s 有和 C 2 相同的概 

率分布。所以运行时间大约是 （7.5 C -2.5 S + 4) w 。 这优于使用一株隐含树的二 
分查找算法(参见程序 6.2. 1 C )。通过像在程序 6.2.1 F 中那样拷贝代码，我们可以 
消去程序 T 的行08,使运行时间减少到 （6.5 C -2.5 S + 5)“。如果查找是不成功 

的，则程序的插入阶段额外耗费时间14“ 或 15 w 。 

算法 T 很容易修改为适用于可变 长的键 码和可变长的记录。例如，如果我们以 
后进先出方式顺序地分配可利用的空间，则不难建立大小可变的节点； （1) 中的头一 
个字可指出大小。由于以树为基础的符号表算法能有效地使用存储，在编译程序、 
汇编程序以及装入程序中使用这种方法是特别有吸引力的。 


但最坏情况如何呢？ 当程序员们第一次看到算法 T 时，通常是怀疑它的。如果 

图 10 的键码是以字符顺序 AQUARIUS , •••, VIRGO 而不是以历法顺序 CAPRICORN , …， 

SCORPIO 记入树中的，则算法将构造出一个实质上确定一个顺序查找的蜕化树，所有 
LLINKs 将是空的。类似地，如果键码以古怪的次序 

AQUARIUS , VIRGO , ARIES , TAURUS , CANCER , SCORPIO , CAPRICORN , PISCES , GEMINI , 

LIBRA ， LEO 

出现,则我们得到同样坏的 “ Z ” 字形弯弯曲曲的树。（请试一下！） 

另一方面，图10中特殊的树，对一次成功的查找，平均仅需要3 #次 比较； 这仅 


仅比最好的二叉树中所能达到的极小平均比较数3稍大一点。 

当我们有了一株相当平衡的树时，查找时间大体上与成正比。但当我们 
有一株蜕化树时，查找时间大体却与 N 成正比。习题 2.3.4.5 -5 证明，如果把每 

株 N 节点的二叉树都当作是同等可能的，则平均查找时间将大约同#成正比。 

对于算法 T 我们实际上能预期什么特性呢？ 

幸而，可以证明，如果诸键码是以随机次序插入树中的，则树查找将仅需要大约 
2 In N ^ l .386 lg N 次比较。平衡树是普遍的，而蜕化树则是非常稀少的。 

关于这一事实，出人意料，有一个简单的证明。我们假定，在 N 个键码的 N ! 种 
可能的次序中，每一种都有同等可能用作插入序列以构造一株树。找出一个键码所 
需要的比较次数，恰比把此键码记入树所需要的比较次数多1。因此，如果 C N 是一 

次成功的查找中的平均比较次数，且是在一次不成功的查找中的平均比较次 


数，则我们有 



但是，内部和外部路径长度之间的关系式告诉我们 


(2) 
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C N = (1 + ~)C; V - 1 ⑶ 

就是等式 6. 2. 1-(2 )。 把 (3) 同 (2) 合在一起得到 

(N + 1)C N = 2N + C; + C; + …+ (4) 

这个递推式容易解出。减少等式 

NC^-i = 2(N - 1) 十 C’o + + …+ Cjv-2 


得到 

因此 


(N 十 1 )C]v — NCn-\ = 2 十 Cjv-i 

C， N 二 C / n _ 1 +2 /(N + 1) 


由于这意味着 

C n = 2H/v+i _ 2 

应用式 (3) 并进行简化即得到所希望的结果 


(5) 


C N = 2(1 + ^ | h n - 3 (6) 

下面的习题6、7和8给岀更详细的 信息； 有可能计算 C / v 和 Ck 精确的概率分布，而 
不仅仅是平均值。 


树插入排序 算法 T 是为了进行查找而设计的，但它也可用作内部排序算法的 
基础； 事实上，我们可以把它看作表插入算法 5.2.1 L 的一种自然推广。如果正确地 
编制程序，则它的运行时间将只比我们在第5章中所讨论的某些最好的算法略慢一 
点。在把所有的键码构造成一株树之后 ，一 个对称的树遍历过程（算法 2.3. 1 T ) 将 

按排序次序访问这些记录。 

然而，一些预防措施是必要的。如果在步骤 T 2 中 K = KEY ( P )， 则需要完成一 
些不同的事情，因为我们正在排序而不是在进行查找。一种解决方法是把 K = KEY 
( P ) 当成同 K > KEY ( P ) 完全一样，这就得到了一个稳定的排序方法。（相等的键码在 
树中未必是相邻的，它们只不过是在对称的次序下相邻而已）。但如果出现许多重 
复的键码，这个方法会使树变得极不平衡，因而排序将减慢。另一种想法是对每一 
个节点，都保持着具有相同键码的所有记录的一张表;这虽需要另一个链接字段，但 

当出现大量相同的键码时能更快地排序。 

于是，如果我们仅对排序感兴趣，而对査找不感兴趣，则算法 T 不算最好但也不 

坏。而且，如果有把查找和排序组合起来的应用，树方法是可以热情地推荐的一种 
方法。 

说明这一点是有趣的，即在树插入排序的分析与快速排序的分析之间有着很强 
的关系，尽管这些方法表面上毫无类似之处。如果我们把 N 个键码逐次地插入到 
开始为空的一株树中，则除了少数例外，我们所做的键码之间的平均比较次数同算 
法 5.2.2 Q 的相同。例如，在树插入中每个键码同进行比较，而后，小于 Ki 的每 

个键码同小于的第一个键码进行比较， 等等； 在快速排序中，每一个键码同头一 

个分划元素 K 进行比较，而后，小于 K 的每个键码须同小于 K 的一个特殊元素进 
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行比较，等等。在这两种情况下所作的平均比较数都是 NC n - iV 。 （然而，算法 
5.2.2 Q 实际上稍微多做了一点比较，为的是加速内循环）。 

删去 有时我们要使计算机忘记它所知道的表中的一项。我们能很容易地删 
去其中 LLINK == A 或 RLINK = A 的一个 节点； 但当两个子树都是非空时，就要做些特 
殊处理，因为我们不能一次指向两条路。 

例如，再次考虑图10;我们如何删去根节点摩羯座 （ CAPRICORN ) 呢？ 一个解决方 
法是删去在字典次序下的下一个节点，它总有一个空的 LLINK , 然后重新把它插入以 
代替我们真正要删去的节点。例如，在图10中，我们可以删去双子座 （ GEMINI )， 然 
后以双子座 ( GEMINI ) 来代替摩羯座 （ CAPRICORN )。 这个操作保持了表中各项必要的 
自左到右的次序。下列算法给出了这样一个删去过程的详细描述。 

算法 D (树删去） 设 Q 是一个变量，它指向如算法 T 中 所表示的二分查找树 
的一个节点。本算法删去该节点，保留一株二分查找树。（实际上，在树的某个节点 

中，我们将有 Q 二 ROOT 或 Q 三 LLINK(P) 或 Q 三 RLINK(P )。 这个算法在存储中重置 Q 

的值，以反映删去）。 

D 1 .[RLINK 为空吗？]置 T — Q 0 如果 RLINK ( T ) = A ，则置 Q — LLINK ( T ) 并转到 

D4 0 (例如，如果对于某个 P,Q=RUNK(P) ,则我们将置 PLINK(P)—LLINK 
⑺）。 

D 2 •[找后继者]置 R—RLINK(T )。 如果 LLINK(R) = A ，则置 LLINK(R)^LLINK 

(T),Q— 尺， 并转到 D 4 0 

D 3 •[找空的 LLINK] S S^-LLINK(R) 0 然后，如果 LLINK(S ) 参 A ， 则置 R—S 并 

重复这一步骤直到 LLINK(S) = A 为止。（这时， S 将等于 Q$ ，即 Q 的对称的 

后继者）。最后，置 LLINK(S)^-LLINK(T),LLINK(R)^-RLINK(S) , RLINK(S)^- 
RLINK(T) ， Q—S 。 

D 4 •[释放此节点]置 AVAIL^T, 于是把删去的节点送回到可用存储空间中。 


读者可能希望通过删去图10中的宝瓶座 （ AQUARIUS )、 巨蟹座 （ CMCER ) 和摩羯 
座 ( CAPRICORN ) 来试验这个 算法； 每种情况是稍微不同的。 一 个机灵的读者可能已 
经注意到，对于 RLINK ( T )# A ， LLINK ( T ) = A 的情况没有进行任何特殊的 判断； 我们 
将把这一情况的讨论推迟到稍后进行，因为这一算法有着某些非常有趣的性质。 

由于算法 D 左右两边很不对称，有理由认为一连串的随机删去和插入将使树失 
去平衡，从而使我们已经作出的有效性估计成为不正确的。但是事实上，删去绝不 
会使树蜕化！ 

定理 H ( T . N . Hibbard , 1962) 通过算法 D 从一株随机树删去一个随机元素之 
后，得到的树仍是随机的。 

[不是学数学的读者，请跳到（10)。]当然，要承认这个定理的叙述是非常含混 
的。我们可以更精确地概述这一情况如 下：设 T 是 n 个元素的一株树，且 P (: T ) 是 
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当由算法 T 以随机次序插入丁的键码时，丁出现的概率。有些树的出现概率可能 
比其它大些。命 Q (： r ) 是通过算法 T 以随机次序插人72 + 1 个元素，而后通过算法 
D 随机地选择其中一个元素并把它删去时，: T 将出现的概率。在计算 P ( T ) 时，我 
们假定键码的 n ! 种排列是同等可 能的； 在计算 Q ( T ) 时，假定原来的 n 个键码和准 
备删去的键码的 U + 1)!(72 + 1) 种排列是同等可能的。此定理指出，对所有： T ， 

P(T) = Q(T) 0 

证明 我们面对着这样一个事实，即诸排列是同等可能的，而诸树不一定，因 
此我们将通过把排列当作随机对象来证明这个结果。下面，给出从排列中删去的定 
义，而后再证明“从一个随机排列中删去一个随机元素后仍保留一个随机排列”。 

设 + 1 是|1，2，一，^ + 1丨的一个排列；我们要定义删去七的操作，以便 

得到 U , 2,…， M 的一个排列 b Y b 2 - b n 。 这个操作应该对应于算法 T 和 D ，使得如 

果我们首先通过插入序列 q ， a 2 ，…， 〜 + 1 构造一株树，然后删去 a , ; 并对剩下的键 

码按1〜 n 的次序重新编号时，便得到由 bA …\ 构造的树。 

不难定义这样一个删去操作。有下列两种情况。 

情况1: 〜 = n + l ， 或对某个 』<{，\ + 1 =七。 (这实质上是条件 “ RLINK (〜） 
= A ”）。 从这个序列撤销^.，并把每个大于^的元素减1。 

情况2 •• 对某个 j ^ i , a { 1 = aj 。以七代替，从七原来的位置撤销七，并把 
每个大于&的元素减1。 

例 如：假 设我们有排列4 6 1 3 5 2。如果把待删去的元素画上圆圈，则有 
④61352 = 45132 461 ③52 = 35142 

4©1352 = 41352 4613⑤2 = 45132 

46①352 = 35124 46135②= 35124 

因为有（/2+1)!(/2+1)个可能的删去操作，所以如果能够证明丨1,2，〜，/2丨的每一排 
列恰是 （n + 1 ) 2 次删去的结果，则定理得证。 

设 b l b 2 ' , ' b n 是 1 1，2,…， n 丨的 一 个排列。我们将定义 （n + I ) 2 次删去，其中满 

足1 < W + 1的每 一^ 对偶 ij 对应 一^ 次删去，如下： 

如果则删去是 

办;+ 1 …办; - 1(匕 + … b 、 ( 7 ) 

这里如以下所示，依赖于心是否小于划了圈的元素，6〗表示心或~ + 1。这个删去 

对应于情况2。 

如果 i > ; ，则删去是 



这个删去满足情况1的定义。 


(8) 
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最后，如果则我们又有另一个情况1的删去，即 

办、… -1 …办: (9) 

例如，设 n =4并考虑映射为3 1 4 2的25次删去 

i = 1 i =2 i = 3 i =4 i = 5 

7 = 1 ⑤ 3142 4 ③ 152 41 ③ 52 41 5-③2 4152③ 

j =2 ③4152 3 ©1 4 2 42①5 3. 425①3 4253① 

i = 3 ③ 1452 4①253 31 ⑤42 315④2 3152④ 

j 二 4 ③ 1542 4①523 31 ④52 314⑤2 4153② 

j ■二 5 ③ 1524 4①532 31 ④25 415②3 3142⑤ 

划圈的元素总在位置 i 处，且对于固定的 f 我们已经构造了 n + 1 个不同的删 
去，每个 j 对应一个 删去； 因此对每个排列幻6 2 …心已经构造了 U + I ) 2 个不同的 

删去。因为仅仅可能有 U + l ) 2 n ! 个删去，故我们必然已经找到了它们的全部。 ■ 

定理 H 的证明不仅告诉我们删去的结果，而且也有助于我们分析一次删除中 
的平均运行时间。习题12证明，当从一个随机表中删去一个随机元素时，平均说 
来，我们可期望执行步骤 D 2 的次数稍少于这时间的一半。 

现在考虑步骤 D 3 中循环执行的频繁程度 ：假设 我们正在删去 Z 级上的一个节 
点，而且在对称次序下直接跟随的外部节 点在力 级上。例如，如果我们从图10删去 
摩羯座 ( CAPRICORN ) ，则有 Z = 0和々= 3,因为节点团在级3上。如果 k Z + 1,则在 
步骤 D 1 中有 RLINK ( T ) = A ; 而如果 k>l + 1 , 则我们将在步骤 D 3 中置 S—LLINK 
( R ) 恰好々 -Z - 2 次， Z 的平均值是（内部路径长度) / iV ;々 的平均值是（外部路径长 
度-到最左外部节点的距离) / N 。 到最左外部节点的距离是在插入序列中自左至 
右极小值的个数，所以，按 1.2.10 小节的分析，该距离的平均值为 H n 。 由于外部路 

径长度减去内部路径长度是 2 iV , 故 k - 1-2 的平均值是 - H N / iV 。 这个值加上々 
-1-2 为 -1 的平均次数，我们看出，在一个随机删去中，步骤 D 3 中的操作 S — 

LLINK(R ) 平均仅被实施 



次。这使人放心了，因为最坏的情况可能是相当慢的（见习题11)。 

尽管在我们已经叙述过的精确形式下，定理 H 是严格地正确的，但它不能如我 
们可能预期的那样，应用到后边跟有插入的删去序列上。在删去之后树的形状是随 
机的，但在一个给定树形中值的相对分布可以变化，结果是，在删去之后的头一次随 
机插入实际上破坏了这些形状的随机性。这个由 Gary Knott 在1972年首先发现的 

令人吃惊的事实，必须看成是可信的（参见习题15)。甚至更令人吃惊的是由 （ J . L . 
Eppinger[CACM 26 (1983),663-669 27 (1984) ,235] 所收集到的经验证据，他发现 

当作了一些随机删去和插入之后，路径长度稍微减少，但在实施了大约 ] V 2 个删去/ 
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插入操作之后，它却增加直到达到一个稳定的状态。当 N 大于大约 150时，这个稳 

定的状态比一个随机树的特性还坏，由 Culberson 和 Munro [ Comp . J . 32(1989),68 
-75 ;Algorithmica 5 (1990) 295〜311 ] 所作的研究已经导致了这样一个似真的猜 

测，即在稳定状态下的平均查找时间近似地为^/^7^。然而， Eppinger 还设计了 
一 个简单的修改，它在算法 D 与同一个算法的左右反射之间 交替； 他发现，这导致了 
一个杰出的稳定状态，其中的路径长度减少到对于随机树它的正常值的大约88% 0 
关于这个特性仍然缺乏理论的说明。 

如上所述，尽管当 LLINK ( T ) = A 时是变得容易的情况之一，但算法 D 对此不作 
检验。我们可以在 D 1 和 D 2 之间增加一个新步骤，即 

D 1 [LLINK 是空的吗？]如果 LL ： LNK = A ，则置 Q — RLINK ( T ) 并转到 D 4。 

习题14说明，磁带有额外步骤的算法 D ， 在路径长度的意义下，使树至少保持 
像在原来的算法 D 中那样好，而且有时结果甚至会更好。当把这个思想同 Eppinger 
的对称删去策略相结合时，对于重复的随机删去/插入操作的稳定状态路径长度减 
少到它的只有插入时的值的大约86%。 

访问的频率 至今我们已经假定，每个键码具有同等可能作为一个查找变元。 
在一种更为一般的情况下，设九是要查找第 々个插 入元素的概率，其中灼+…+ 

p N = lo 则如果我们保留随机次序的假定使树的形状保持随机且等式 （5) 成立的话 
等式 (2) 的一个直截了当的修改表明，在一次成功的查找中平均比较次数将是 

N N 

1 + ^p k (2H k - 2 ) = 2^p k H k - 1 ( 11 ) 

k = 1 k = 1 

例如，如果概率遵守 Zipf 定律等式 6.1- (8) ，并按重要性递减的次序插入键码 
时，则平均比较次数减少为 


H N - 1 + H 皆 IH n (12) 

(见习题18)。这大约等于按相等频率分析所预期的比较数的一半，而且它比我们 
使用二分查找的比较数还要少些。 

图12示出，当31个最常用的英文字按频率递减的次序记入时所得到的树。使 

用由 H . F . Gaines 所著 Cryptana/ysis (纽约 ： Dover 1956) ,226所作统计，对每个字亦 

给出其相对频率。在这株树中，每次成功查找的平均比较次数是 4. 042;而利用算 
法 6.2.1 B 或 6.2.1 C 的对应的二分查找，将需要 4.393 次比较。 

最优二分查找树 这些考虑使得提出，对于给定的诸频率，给出查找诸键码的 
一 个表的最好树的问题，变得十分自然。例如，图13示出对于31个最普通的英文 
词的最 优树; 对于一个平均的成功查找，它仅要求 3.437 次比较。 
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图12 31个最常用的英文字，以频率减少的次序插入 



图13 31个最常用英文字的最优査找树 

现在，我们来剖析寻道最优树的问题。例如，当 N = 3 时，假定键码 K X <K 
的概率分别为^，〜〃，则有五种可能的树形： 


II III IV V 
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图14标出了使每株树是最优的 p 、 q ， r 的 范围； 如果我们随机地选择 p ， q , r , 
则平衡的树大约有45%的可能是最好的（见习题21)。 



\ 

\ 

\ 


: - 
__義 






( 1 , 0 , 0 ) 


( 0 , 0 , 1 ) 


图14如果的相对频率是 （ nr ), 则此图指出 （13) 的五株树中哪一株是最好的。 

虽然有三个坐标，但/> + g + r = l 使这个图形变成二维的 

可惜，当 JV 很大时，有 

(H(N + l) 〜 4 ， (^iV 3/2 ) ' 

株二叉树,所以我们不可能全都试验它们并看出哪一株是最好的。因此我们来更仔 
细地研究一下最优二分査找树的性质，以便发现找岀它们的一个更好的方法。 

至今，我们只考虑了一次成功的查找的 概率; 实际上，通常也必须考虑不成功的 
情况。例如，图13中的31个字仅考虑了典型的英文课本中大约36%的 情况； 其余 
64%的情况肯定将影响最优查找树的结构。 

因此，让我们以如下的方式来提出问题 ：给定 2^ + 1个概率 p x ， Pl ，…， Pn 和 

qo ， qi ， …， q n ，其中 

A =查找变元是 K 的 概率； 

仏=查找变元处于反.和 K i + 1 之间的概率。 

(由约定， w 是查找变元小于的概率是查找变元大于1<：„的概率。）于是，/^ 

+ /> 2 +…+久+心+ w +…+〜=1,我们要寻找一株二叉树，它使查找中预期的 
比较次数 


n 71 

^ Pi(level((D ) + 1) + 2 q k level ( [k] ) (14) 

；=i 是 = o 

极小化，其中 © 是在对称次序下的第 ） 个内部节点，囡是第 U + 1) 个外部节点，根 

的级为0。于是，对于二叉树 
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预期的比较次数是 2(70 "*"2/)! + 3^! + 7>p2 + 3^2 + 多3 + ^3。我们称此为树的费用；具 

有极小费用的树称为是最优的。在这个定义之下，无需要求诸和(？的和为1，对 
任何给定的“权”序列 （h ，…，九；<?()，…，^)，我们可寻求相应的极小费用的树。 

我们已经在 2.3.4. 5小节中研究了构造具有极小加权路径长度树的 Huffman 
过程; 但该方法要求所有的 f 皆为0,且在它产生的树上，其外部节点的权（如，…， 

&) 通常不是严格地按从左到右的对称次序排列的。因此，我们需要另外的方法。 

有一个原理能帮助我们，这就是 •.一 株最优树的所有子树都是最优的。例如，如 

果 （15) 对于权 （/) i , p 2 , ; go , h , <73 ) 是 一 株最优树，则这个根的左子树必然是 
对于为最优的；对一株子树的任何改进必然导致对整株树的改 
进。 

这一原理提示了一个计算过程，它系统地寻道越来越大的最优子树。我们在 
5.4.9 小节已经使用同样的思想来构造最优的合并 形式； 一般的方法称做“动态规 
划”，我们将在 7.7 节作进一步的考虑。 

设 ) 是具有权 （A + 1 ， … ， Pi 、 qi ， …， %)的一株最优子树的费用；且 Z yj ) 

= A +1 +…十九+ t 十…+ %是所有那些权的和；于是 e zj ) 和加 （ D ) 定义于0 

上。由此得出 

c ( i y i ) = 0 

c(i yj) = w(i yj) + min ( c(i f k - 1) + c(k ， j )) ， 对于 z ’ < j (16) 

* < 

因为具有根 ® 的一株树可能达到的极小费用是 + + 当 

i<j 时，设尺 （ id ) 是使 （16) 中的极小值能达到的 所有々 的 集合； 这个集合确定了 
诸最优树的可能的根。 

等式 （16) 使我们能对 J _ i 二 l ，2 ，“.，n 计算，』）；大约有 jn 2 个这样的值， 

且对大约士 n 3 个々 值实现了极小化操作。这意味着我们能利用 OU 2 ) 个存储单 

0 

元，在 OU 3 ) 个时间单位中确定一株最优树。 

实际上，如果我们利用一个“单调性”的性质，则即可从运行时间中消去一个因 
子 n 。 设 r ( D ) 表示的一个 元素； 我们不必计算整个集合尺 （ U )， 只计算 
一个代表元素就够了。 一 旦找到 r (;， j - l ) 和 rG + l ， ； ）， 则习题27的结果证明， 
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当权非负时，我们总可以假定 

r(i J - 1) < r(i , j ) < r(i + 1 (17) 

由于 （16) 中只需考察 r(i + 1 f j ) - r(i f j ~1) + 1个而不是 j - z •个 A 值，这就限制 
了极小值的查找范围。当时，总工作量便以缩短的级数 

X ) ( r(i + lj )- r ( i f j -1) + 1) = 

i = j - d 

r(n - d -\- l , w ) — r ( O y d — 1) n — d -\- 1 K 2 n 

为界，因此总的运行时间已减少到 OU 2 )。 

下面的算法详细地描述了这一过程。 

算法 K (求最优的二分查找树）给定 2 tz + 1个非负的权（仏，…，九；如，…， 

W ), 本算法构造二叉树 i ( id ), 它在上述定义的意义下，对于权（九 + 1 ，…， 巧； ％, 

•••，％)有极小的费用。要计算三个数组，即 

, j ] ，对于0 < i < j < w ， t(i yj ) 的费用 

对于 0< i <j < n ， t ( i ， j ) 的根 
u )[ ij ] 9 对于 0 < i < j < 7 Z ，〆 f , j ) 的总权 
这个算法的结果由数组 r 指明 ：如果 i = j 9 JHIJ 为空； 否则它的左子树是 t ( i ， 

r [ f ， j ] -1)，它的右子树是 /( r [ i , j ]， i ) 0 

K1 .[初始化]对于( X i^n 置 c [ !• , i ] — 0 ，和如 [i , f ,对于 j = 2_ + 1 ，…， 

W 置 Zt > [ Z ’] — Zt >[ f ， j - 1] + 岛 + %。然后，对于 置 c [ j - 1, 

- l ， j ] 以及 r lj ~ 1， J ]— j (这确定所有一个节点的最优树）。 

K 2 •[对^循环]对^ = 2,3,… ，7 z 执行步骤 K 3, 然后结束该算法。 

K 3 .[对 j 循环](我们已经确定了少于^个节点的最优树，这个步骤确定所有 

d 个节点的最优树。）对于 j = d,d + l ， …， n 进行步骤 K 4。 

K4 •[求 c [ i y j ] f 置 i — j - d ， 然后置 c [ i , j ]^~ w [ i 9 j ] + 

m ^ n r [ / - i ]</ t < r [ t + ij ]( c [ i ， A _ l ] + c [々， j ])。 并且置 为使极小值 

出现的一^个々值（习题22证明， r [ f，j - 1 ]^r [ z + l , j ]) I 
作为算法 K 的一个例子，考虑图15,它是以“上下文中的键码” （ KWIC ) 索引应 
用为基础的。 UCM 杂志》头十卷中所有论文的标题，被排序并编制成一个重要的 
词汇索引，其中每个标题的每个字都有一行。然而有些字，如 “ THE ” 和 “ EQUA ¬ 
TION ” 被认为并不包含多少信息，故从索引中省去。 在图15的内部节点上标出了 
这些特殊字和它们出现的频率。注意，像“对于某个新问题的一个方程的解”这样的 
标题，由于完全不提供任何信息，所以根本不出现在索引中！ KWIC 索引的思想，来 

源于 H . P • Luhn Amer . Documentstion 11 (1960) ， 288 〜 295 ( 见 W . W . Youden JACM 

10 (1963),583 〜646,其中有完全的 KWIC 索引）。 

当为排序准备一个 KWIC 索引文件时，我们可能希望用一株二分查找树，以便 
检验每个特定的字是否应被编入索引。其它的字落在两个未编索引的字之间，其频 
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图15用于一个 KWIC 索引的一株最优二分査找树 

率在图15的外部节点上 标出； 例如，在1954—1963年期间出现在 JACM 的标题中 

的字母处于 “ PROBLEMS ” 和 “ SOLUTION ” 之间的恰有277个字。 

图15示出了 n =35时，由算法 K 得到的最优树。对于 ； =1,2,〜，35，广[0， ； ] 
的计算值是（1，1，2,3,3,3,3,8,8,8,8,8,8，11，11，“.，11，21,21，21，21，21，21);对 
于 f = 0，1， …， 34， r [ i ，35] 的值是（21，21，...，21，25,25,25,25,25,25,26,26,26, 

30,30,30,30,30,30,30,33,33,33,35, 35) 0 

“中间性频率”％对于最优树结构产生一个值得注意的影响。图 16( a ) 示岀了 

置％为0时所得到的最优树。类似地，内部频率 A . 是重要的；图 16(6) 示岀了当 A . 

被置成0时的最优树。考虑全部频率的集合，平均说来，图15的树仅需要 4.15 个 
比较，而图16的树则分别要求 4.69 和 4.55 个比较。 

由于算法 K 要求时间和空间同 n 2 成正比，因此当 n 变得很大时，它就成为不 
实用的了。当然，鉴于在这一章稍后有待讨论的其它查找技术，我们对于很大的 n 
可能不真正使用二 叉树； 但仍然假定，要在 n 很大时找一棵最优的或接近于最优的 
二叉树。 

我们已经看到，以递降的频率顺序插入键码的思想，平均说来可以产生相当好 
的树; 但由于不利用％个权，它也可能非常之坏（见习题 20), 而且它不是经常地接 

近于最优。另一个方法是选择根々，使得到的极大子树权 max ( w (0，々 ~ 1) , w(k f 
n )) 尽可能小。这个方法也会是相当差的，因为可能选择一个具有非常小的九的 

节点作为根;然而，下面的定理 M 证明，得到的树将不会离最优极其遥远。 

正如 W . A . Walker 和 C . C . Gotlieb [Graph Theory and Computing (Academic 

Press J 972) f 303-323 ]所提议的，把这两个方法组合起来，可以得到一个更令人满 
意的 过程: 尝试使左边和右边的权相等，但准备把根向左或向右移动几步，以找出具 
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6.2 通过键码比较进行查找 


图16在图15的一半数据基础上的最优二分査找树 

U ) 外部频率为 0; u ) 内部频率为0。 

有相当大的九的一个节点。图17示出为什么这个方法是有道理的：如果对图15 

的 KWIC 数据，把 c (0，々-1) 十 cU ，/ z ) 画作々的一个函数，则我们看到结果对于 
p k 的数量级是十分敏感的。 

当”很大时，这样一个“由顶向下”的方法，可用来选择根，然后再处理左子树和 
右子树。当我们达到一株充分小的子树时，就可以应用算法 K 。 这样的方法产生相 
当好的树（据报告与最优的树相差不到百分之二或 三）， 并且它只需要 OU ) 个空间 
单位和 OUbg ”） 个时间单位。事实上， M.Fredman 已经证明，如果使用正确的数 
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图 17 作为根 々的 一个函数的费用特性 

据结构 ， OU ) 个时间单位就足够 [STOC 7 ( 1975 ) ,240〜244 ] 。参见 K . Mehlhorn , 

Data Structures and Algorithms 1 ( Springer , 1984) ,4.2 节 0 

最优树与炳极小费用和称做熵的一个数学概念密切相关，它是由 Claude 
Shannon 在他关于信息论的杰岀论文中引进的 [ Be 〗〗 System Tech . J. 27 (1948),379 

〜 423,623 〜 656] 。如果/,/>2,^是概率且 / M h …+九=1。我们由公式 

H ( pi ， p 2 y ,, ^ Pn ) = T " (18) 

k = l Pk 

定义熵 H ( p ^ p 2 r -, p n ) o 直观地说，如果 n 个事件是可能的且第 A 个事件以概率 
p k 岀现,我们可以想像，当第 々个事 件已出现时，我们已接收了 lgd /九） 位的信息。 

(概率为^的一个事件给出5个信息位，等等）。于是，^(/^，/^，…，九）是在一个 

随机事件中预期的信息的位数。如果九=0,我们定义九 lg ( l / 九 ）=0, 因为 

. 1 1 

lim elg — = lim —— lgm = 0 

e—-0+ £ m 一 0 ° 7TI 

这个约定允许我们在某些概率为 0 时来使用（18)。 

函数: dg ( l / x ) 是 凹的； g 卩，它的二阶导数 -1/ Uln 2) 为负。因此，当 Pr = p 2 = 

••- = p n = lln 时，，户 2 ,…，九）的极大值岀现。即 

H (丄，丄，…，丄 ) = lg rz (19) 

\ n n n J 

一般地说，如果我们确定仏，… ，九 但其它概率 p n — k w "， p n 变化，我们有 

H(p\ ， … ， Pn-k ， Pn-k + \ ， … ， Pn) < H ( 〜，…，九十 f ，…，|^ ) = 

• 412 • 




6.2 通过键码比较进行査找 


H ( pv ，…， p n — k ， q ) + q^gk (20) 

H(pir-,p n -kypn-k + ir mm ypn) ^ 

讯〜，…， ^—“，0, …，0)= 

H(pU … ， Pn-k,q) ( 21 ) 

其中 ^ = 1 - ( / >1 + *** + Pn~k) 

考虑任何无需为二叉的树，其中已对诸叶指定概率，比如说 



这里九表示一个査找过程将在叶@处结束的概率。于是在每个内（非叶）节点 

处的分支对应于在每个分支之下基于叶概率之和的一个局部概率。例如，在节点 
A, 以分别的概率 

(P\ + 夕 2 4 ■ 夕 3 + P4yp5yp6 + 夕 7 + 夕 8 + p9) 

取第一个、第二个和第三个分支，而且在节点 B， 概率是 

(P\ ， Pi ， P3 + Pa)\(P i + P2 + Pz ^ P 4 ) 

我们说，每个内节点有它的局部概率分布 的熵； 于是 


H(A)= (pi + ^>2 + ^3 + Pa) lg 


_1_ 

P\ + p 3 + Pa 



p5lg i 


+ (p6 + Pi + P8 + P9) lg 


1 

P6 + Pi + P& ^ P9 


H(B)^ pl L 多 1 + 夕 2 + 户 3 + 力 4 1 Pi , Pl + Pl^- p3 + p4 

P\ + P2 ^ P3 + p4 Pl Pl + P2 ^ P3 ^ p4 ^ Pl 

P3 + Pa , ^1 + ^2 + ^3 + Pa 

Pl^ Pl + P3^ P4 g P3 + P4 



Pl I Pl 

Jl g Jl 


H(D) = 


P 3 


P 3 



P4 


lg 


P 3 



Pa 


P 3 



p4 i， + /M 


P 3 + P 4 


P 4 


H(E) = 


P 6 


P6 + Pl 



Ps 



P 9 


k 


P6 + ^7 + ^8 + P9 

P 6 



Pl 


1 


P6 + Pl ^ P8 


P 9 
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_^8_ . P6 ^ Pi + P8 ^ P9 + _ P9 _ , P6 ^ Pi P8 + p9 

P6 ^ Pi ^ PS + P9 g PS P6 + P7 + 户 8 + 户 9 g P9 


引理 E 对于一个树的所有内节点 a 所取的 p ( a ) H ( a ) 之和，其中 P ( a ) 是达到 
节点 a 的概率，而 H ( a ) 是 a 的熵，等于在这些叶上的概率分布的熵。 

证明通过由底向上的归纳法，容易确立这个恒等式。例如，关于上面的公式， 

我们有 

H( A) + (pi + 户 2 + h + p^)H(B) + p 2 H( C) + (p 3 + p A )H(D) + 

(Pe + 夕 7 + 夕 8 + P 9 ) H(E ) = 


Pi lg 


丄 

Ji 


+ Pi lg 



Pi 


+ … + p 9 lg 


P 9 


所有涉及 lg ( p\ + pi + p3 + P 4 ) y^(p3 + 夕4)和 lg (/ >6 + Pi + P& + p 9) 的项都消失。 


作为引理 E 的一个结果，我们可以使用熵来确立对于任何二叉树的费用的一个 
方便的下限。 


定理 B 设 （ Pi ， …， Pr ^ qo , …， q „) 是如同在算法 K 中那样非负的权，并且规格 

化使得 川+…+九+如+…+ 心二 并设 P = + …+九是一次成功查找的概 

率。设 

H = H ( pi ， … ， p „， q Q ，."， q „) 

是对应的概率分布的熵，且设 C 是极小费用（14)。于是，如果 H >2 Ple ， 我们有 

O H - Plg ^ (23) 

^ P 

证明取费用 C 的一个二叉树，并对它的诸叶指定概率 w 。 在每个内节点之 

下，还加上一个中间分支，导致有概率九的一个新叶。然后，对得到的三叉树的内 

节点 a 求和 C = SpU ), 以及由引理 E ， 得到 H ^ Ep ( a ) H ( a ) 0 

如果 a 是内节点 ( D , 熵 H ( a ) 对应于一个三路分布，其中概率之一是 pjlp ( a ) 0 

习题35证明，对于所有： c >0, 每当 p + g + r = l 时， 

H(p y q , r ) < p\gx + 1 + lg|l + (24) 

因此，对于所有正的： r ， 我们有不等式 


n 


H 


Y ] p ( a ) H ( a ) < Yj PM x 




lg 



2 x 


C 


a 


现在选择2工 = H / P 就导致所求的结果，因为对于所有: y >0， lg(l + yXylge 




1 


1 + lg(l + P / H ) 


1 


+ lg(l + PlH ) 


H - Pig 


旦 

2 P 


(H + Plge ) - 


P 


eH 


+ lg(l + P / H ) lg 2 P ^ 
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H - Pig ^ I 

当熵极其低时，等式 (23) 不必成立。但对于的情况的限制不是严格 
的，因为 H 的值通常接近于 lg n ;参见习题37。注意这个证明并不真正使用节点自 
左至右 的阶； 对于在任何阶之下有内节点 概率巧 和外节点概率 w 的任何二叉查找 
树下限 (23) 成立。 

即使当我们确实坚持自左至右的阶时，熵的计算也产生距离 （23) 不太远的一个 
上限。 


定理 M 在定理 B 的假定之下，我们也有 

C < H + 2 - P (25) 

、 y 1 1 

证明形成 ” + 1 个和 s 0 = ~ q 0 f Si ~ q 0 + + — q t f s 2 = Qo + pi + qi + p 2 + 



7仍，…，、 = 90 + /h + ■•* + ^ w -i + p n + 


我们可以假定 


5 o < 巧 < … < (见习 


题 38)。 把每个 h 表达为一个二进小数，如果 h = 1 则写〜= (. 111…） 2 。于是令 

串 A 是以的前导二进位，对于 J 关々，保留足够的二进位以区分4和例如，我们 
可以有72=3,而且 


So : 

=(. 0000001)2 

^0 

= 00000 

^1 = 

=(. 0000101)2 

^1 

= 00001 

= 

=(. 0001011)2 

a 2 

= 0001 

^3 = 

=(. 1100000) 2 

^3 

= 1 


以如下方式构造有72 + 1个叶的一个二叉树，即对于对应于从根到 E 
的通路，其中0表示一个左分支，而1表示一个右分支。还有，如果 A M 对于某个 

以， A 和 Q ， 有 a k Op k 的形式 ，而心 有以1八的形式，令内节点 IB 对应于通路以。于 

是在上面的例子中，我们将有 



可能还有仍然没有名字的内 节点； 以它们的一个且仅一个孩子代替它们的每一 
个。得到的树的费用至多是 ^ n k = l Pk ( \ a k 1+1) + J ^ n k = o q k I 〜 I 。 

我们有 
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/丄 

Pk ^2 %- 1 



Pk 




2 


Qk 




< 




(26) 


因为 


I a 


J 和 s k - l >(. a k ) 2o 其次，如果 w >2〃； 我们有 s k > s k 



2 —+ + 由此得岀 ％<2 _l ' l+2 , 而且我们已经 

构造了费用为 


n 

^ 2 ^(! + 1 a k 

k — I 

的一株二叉树 D ■ 



P + 2(1 - P) + H = H + 2 - P 


在图15的 KWIC 索引应用中，我们有 P = 1304/3288〜0. 39659,而且 H ( p u 
…，仏5，如，…， W 5) 〜 5. 00635。因此定理 B 告诉我们 03. 3800,而定理 M 告诉我 
们 C <6.6098 o 

Garsia-Wachs 算法在 p \ = …= p n =Q 的特殊情况下算法 K 的一个令人喜悦 
的改进是可能的。其中仅仅叶概率（^)，…，…， &) 是有关的这种情况特别重要，因 
为它在好多重要应用中岀现。因此在本小节的剩下部分我们假定，概率&全为零。 
注意在这种情况下定理 B 和 M 归结为不等式 

H ( q Q ， qi ， …， q n ) < C ( ,…，<?” ） < H ( q G ， q ' ，…， q n ) + 2 (27) 

而且费用函数 （14) 简化为 

n 

c = 2 ^kh h 二 E 的级 （ 28 ) 

以下发现是使一个更简单的 >算°法成为可能的关键性质。 


引理 W 如果，则在每个最优树中 l k <lk + i ， 如果 qk - i 二 q k ”， 则在 
某个最优树中 lk<k + i 。 

证明假设 i 并且考虑其中 + i 的一株树，于是@必定是一个右 
儿子，而且它的左兄弟 L 是权的一个子树。用 L 代替@的 双亲； 以其儿子 

为因和 |々+ 1| 的一个节点代替 |々+ 1| 。这使整个费用改变 _ c - q k ( l k _ h ” _ 1) + 

Qk + \^Qk + i ~ qk -\。 所以如果如 + 则给定的树不是最优的，而且如果 qk -1 
=% + 1 ，则一个最优树已被转换为另一株最优树。在后一种情况下，我们已经发现 

一棵最优树，其中4 = 4 + 1 。I 

对于这个结构更深的分析告诉我们更多的结果。 


引理 X 假设 j 和 / z 是使得 j < k 的下标。而且我们有 

i ) 对于 Ki<k , qi -\> q i + i 9 

ii ) qk - i^Qk 

iii ) 对于 k _ 1, q t <. q k - x + % ; 而且 
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iv ) Qj - x ^ qk-i + qk 。 

于是有一株最优树，其中4^ = 4,而且两者中 

a ) lj = l k _ 1，或者 

b ) 二 l k 且@是一个左儿子。 


证明 ：通过 在引理 W 中把左和右转过来，我们看到 （ U ) 意味着一株最优树的存 


在性，其中引理 W 和⑴也意味着卜</ 2 <…< 4 。因此 4- 


I 


k O 


对于某个满足）<5<々的5，假设4<4-1<4 + 1 。设〖是使得 l t - l k 的 < 是 


最小下标。于是 z 5 + 1 


= • • • = 


A-i = 4- 1，而且5 + 1是一个左儿子。因此〖 - s 是奇 


数，而且对于2 = 5 + 1,5 + 3, *** , ^，节点是一个左儿子。以 N + l | 代替[7|的双亲;对 

于以 [2 ■十 i | 代替 [71; 而且以其子女为 [ 7 ] 和 [5 + 1 | 的一个内节点代替外节点 

3 。这使费用改变 ~ q t ~ q t + i^Q s ~ Qk-\~ W ，所以如果 t % %，则它是 

一个改进。因此，由 （ iii) ， Z 7 >/H 。 


我们仍然未使用假设 （ iv )。 如果~ = 4,而且0不是一个左儿子，则0必定是 

习的右兄弟。以^三]]代替它们的父节点，然后对于以^三习代替叶 

而且以其子女为 [1二1| 和旧的一个内节点代替外节点 [ g 。 这使费用改变 - + 

+ W <0, 所以我们得到满足幼）的一株最优树。 ■ 


引理 Y 设 j 和4 如同在引理X中那样，并考虑通过删去 和 而且在 


之后插乂 Qk-\ + qk 得到的修改的概率 （q'o, 

W ，％， …，％ -2 ，W + 1 ，…〜）。于是 


… ，心 -1 


( qo > 


Qj-l y Qk~l 



◦(〆() ， … ， t-i) < (qk-\ + q k ) + C(g 0 . 


，〜） 


证明 


只须证明，对于（^)，…，〜）的任何最优树可被转换成相同费用的 


(29) 
株 


树，其中 |々-1| 和囚是兄弟，而且诸叶以排列的次序 






L 


纛》拳 


k — 2 




(30) 


出现。我们以在引理 X 中构造的树开始。如果它有类型 （ b )， 我们可简单地对叶更 


名，把 |々_1| 和囚向左滑动々- 1 - 7 个位置，如果它是类型 （ a ), 假设 


Is- 


1 


4 一 1和 


4 二我们进行如下 : 首先把 >_1 | 和囚左滑动々- L - s 个 位置； 然后以^三^代替 
它们的（新的） 双亲； 最后，以其子女为 匕 - Z | 和囚的一个节点代替□，而且对于 j<i 

< s ，以[^三 I] 代替节点0。 ■ 


引理 Z 在引理 Y 的假设之下， （29) 中的等式成立。 

证明对于 （ to , …， K - O 的每株树对应于有叶 （30) 的一株树，其中两个越出 
次序的叶节点 | 々-1| 和囚是兄弟。令内节点： r 是它们的双亲。我们要来证明，该类 
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型的任何最优树可被转换成相同费用的一株树，其中叶以正常的次序回… g 岀现。 

如果-1，则无需证明任何东西。否则对于-1，我们有 9 ：_ 1 > 


如果 j = k - i y 
，因为 q ^- i^qk 



Qk>Qj 


因此由引理 W ， 我们有 






其中 


是: C 的级，而且对于是@的级。如果我们简单地把节点2 

JZ ^\ 工 来代替序列 I □… ^2| ;这就如所求那样把叶弄好。 

= 4，且 l s + l > L xy 我们首先以代替 : c 团…0 ;这使得 
C 中 Z = 4 + l 是节点|々-1|和囚公共的级。最后以循环移动的序 


向右滑动，以£ 


_ ■參 


否则，假 设久 


< 


列 5 + 1 


<4- 2 ,其中 z = 4 + l 是节点 |々-1| 和 P 
•• k ~2 \k - l | [ X | 代替节点 k — \ k _ 5 + 1 




k — 2 o 


习题40证明，这减少费用，除非 
4- 2 = Z ， 证明完成。 


lo 但是由于引理 Y ， 费用不能减少。因此 


这些引理表明，对于 n + 1 个权 q Q ， qi ，"、 q n 的问题可以归结为 / z 个权的 问题: 
我们首先找使得最小下 标々； 然后我们找使得 q } - x > q k -^ q k 的最 

大 j < k ;然后我们从这个表中删去 W -1 和 W ，并且把和 qk-i + Qk 就插在％ 之后。 
在 J =0或々= 72的特殊情况下，这些证明表明，我们应当就像在左和右有无穷的权 

〜 + 1 存在那样进行。这些证明还表明，从新的权（ 〆 ()，…，“^)得到的任何最 

优树 7" 可以重新安排成一株树丁，它在正确的自左至右的次序下有原来的权 （ M ， 
…，^);而且每个权在 t 和 r 两者中将出现在相同的级上。 

例如，图18示出当诸权％是在英文正文中字符…， Z 的相对频率的 
构造。开头的一些权是 

186,64,13,22,32,103, *** 

而且我们有186>13,64>22,13<32;因此，我们以35代替“13,22”，在新的序 
列 

186,64,35,32,103，" 

中，我们以67代替“35,32”并且把67滑动到64的左边，得到 

186,67,64,103,… 

然后“67,64”变成131，而且我们开始来考察跟随103的那些权。在27个原来 
的权被组合成单个权1000之后，逐次的组合的历史确定一个这样的二叉树，这株树 
的磁带权路径长度是原来问题的解。 

但是图18中的树的叶不全处于正确的次序之下，因为当我们把 qk -. + Qk 向左 

滑动时，它们变得混乱(参见习题41)。还有，引理 Z 的证明保证，存在一株树，它的 
叶处于正确的次序之下，而且恰好和混乱的权有相同的级。这个非混乱的树，即图 
19,因此是最优的。由 Garsia - Wachs 算法，它是二叉树的输出。 

算法 G ( Garsia - Wachs 的最优二叉树算法） 给定一序列的非负权加。，加 i ，…， 
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t ^。 本算法构造出有 72 个内节点的二叉树，对于这个二叉树， l ^ =0 W k L k 为极小。 

其中4是从根到外节点@的距离。它使用272十2个节点的一个数组，对于0<是< 
2 n + 1其地址是 X A ; 每个节点有称做 WT ， LLINK ， RLINK 和 LEVEL 的四个字段。被构 
造的树的叶将是节点 Xo … X „; 内节点将是 X „ + 1 … X 27 , ; 根将是 X 2 „; 且 X 2ri + 1 被用作一 
个临时的标志。本算法也维持一个指针 ，…， P t 的工作数组，其中 t<n + l 0 

G 1 •[开始阶段 1] 对于，置 WT(Xj — 叫以及 LLINK ( X k )<- RLINK(Xj 

— A 。 还置 P 0 — X 27J + 】 ， WT ( P 。）— oo ， Pi — Xq ， f — 1， 772 — n 。然后对于 j = l ， 

2, …， n 实施步骤 G 2, 并转到 G 3。 

G 2 •[吸收％](这时我们有基本条件 

WTGh ) > WT ( P - + 1 ) 对于 1 < i < z (31) 

换言之，在工作数组中的权是“2-递减的”）。实施以下的子程序 C 零次或 
多次，直到 WT ^ P ^ i )〉％。 然后置 Z — 纟+ 1和 P ,— X >。 

G 3 •[完成阶段 1] 实施子程序 C 零次或多次，直到 z = l 。 

G 4 •[执行阶段 2] (现在 Pi = X 2 r 2 是二叉树的根，而且 WT ( P : ) = W(D + …+ Ww )。 

对于置4为从节点 Pi 到节点 X k 的距离。（参见习题43,图18 

示出一个例子，其中级号出现在每个节点的右边）。 

G 5 .[执行阶段 3] 通过改变乂„ + 1 ，…， X 2 rJ 的链接，构造有相同级号但有在对 

称次序％，…，心下的叶节点的一个新二叉树。（参见习题44;一个例子出 
现于图19中。 ）■ 

子程序 C ( 组合）本子程序是 Garsia - Wachs 算法的核心。它组合两个权，适当时 

把它们左移，并且维持2-递减的条件(31)。 

C 1. [初始化]置 k — t 。 

C 2 ■[建立一个新节点](这时我们有々>2)。置 m —m + 1 , LLINK ( X ra )—Pk — h 

RL 工 NK (X J —P& ， WT ( X J — WT ( 卩卜 i ) + WT ( ) 0 

C 3 .[向左移动跟随的节点]置 i — 1，然后对于〖，置 P j + 1 — Pj 。 

C 4 •[向右移前边的节点]置 j — k -2; 然后当 WT(Pj.)<WT(X m ) 时置 P j + 1 — &和 

j—j - lo 

C 5 •[插入新节点]置 P j + 1 — X m 。 

C 6. [完成没有？]如果 ） >0和则置 k ^ j 并且回到 C 2。■ 

如同前面所述，子程序 c 可能需要 n ( 72) 步来建立和插入一个新节点，因为它使 
用顺序的内存而不是链接表。因此算法 g 总共的运行时间可能是 nu 2 )。 但是更 
精心设计的数据结构可用来保证阶段1将至多要求 OUlog 幻步（见习题45)。而 
阶段2和阶段3仅需 OU ) 步。 

Kleitman 和 Saks [SIAM J . Algeb . Discr . Methods 2 (1981 )142 〜 146] 证明，最优 
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加权路径长度决不超过当诸 g 被安排成“锯齿次序”下出现的最优加权路径长度的 
值，这锯齿次序是 

⑹ < 94 < …< Q 2 lnl 2] ^ <?2「《/21 - 1 < … W (32) 

(这是在习题 6.1 - 18 中讨论的管风琴的次序的逆）。在后一种情况下， Garsia - 
Wachs 算法实质上归结为在权 + » 92 + 93 > …上的 Huffman 算法，因为在工作 

数组中的权实际上将是非递增的（而不仅仅像在 (31) 中那样是“2 -递减的”）。因此 

我们能够改进定理 M 的上限而无须知道诸权的次序。 

图19中的最优二叉树对编码理论以及查找有一个重要的应用。使用0代表树 
中的一个左分支，而用1代表右分支，我们得到下列可变长度的码字 


L 1 

00 

工 

1000 

R 

11001 


A 

0100 

J 

1001000 

S 

1101 


B 

010100 

K 

1001001 

T 

1110 


C 

010101 

L 

100101 

U 

111100 


D 

01011 

M 

10011 

V 

111101 

(33) 

E 

0110 

N 

1010 

W 

111110 


F 

011100 

0 

1011 

X 

11111100 


G 

011101 

P 

110000 

Y 

11111101 


H 

01111 

Q 

110001 

Z 

1111111 


于是，像 “right 

ON” 这样一个消息将被编码为串 





1100110000111010111111100010111010 

尽管码字的长度是可变的，但从左至右的编码是容易的，因为树结构告知我们何时 
一个码字结束和另一个码字开始。这个编码方法保持了消息的字母次序，而且它平 
均对每个字母使用 4.2 个二进位。因此这个码可用来压缩数据文件，而不破坏字母 
信息的词典次序。（对于所有二叉树编码来说，每个字母 4.2 个二进位这个数字是 
极小的，尽管如果我们不理睬字母次序的限制，它可减少到每个字母 4. 1个二进位。 
如果以字母对来编码而不是以单个字母编码，可以实现进一步的减少，同时保持字 
母次序）。 

历史和文献 这一小节的树查找法是在20世纪50年代由若干人独立地发现 
的。在1952年8月的未公开的备忘录中， A . I.Dumey 以下列方式描述了树插入的 

原始形式： 

考虑其中可存储2” 个项目的一个磁鼓，每一个项目有一个二进地址。遵循下 
列程序： 

1. 读入头一个项目并把它存于地址2”^中，即存储位置的一半处。 

2. 读入下一项目，把它同头一个进行比较。 

3. 如果它大，则把它放置在 2 W_1 + 2” 的位置处，如果它小，则把它放置在 
2”- 2 处…。 

树插入的另一种早期形式是由 D . J.Wheeler 提出的，他实际上允许类似于我们 
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将在 6.2.4 小节讨论的多路分支。一个二叉树插入技术也由 C . M . Bernes - Lee 独立 
地发明出来[见 Comp . 丄2(1959),5]。 

P . E.Windley [Comp. J. 3 ( 1960 ) , 84〜88 ] 、 A . D.Booth 和 A . J . T.Colin 
[Information and Control 3 (1960 ), 327 〜 334 ] 和 Thomas N . Hibbard [JACM 9 

(1962) ,13 〜 28] 首先发表了树插入的描述。这些作者每一位似乎都已经彼此独立 
地发展了这个方法，而且每篇文章都以不同的方法导出了比较的平均次数（6)。各 
个作者还讨论了这个算法的不同 方面： Windley 给出了对树插入排序的一个详细的 
讨论； Booth 和 Lolin 讨论了使前 2 n d 个元素形成一株完全平衡的树这种预先处理 
的效果（见习题 4) ; Hibbard 提出了删去的思想并说明了树插入分析和快速排序分 
析之间的联系。 

最优二分查找树的思想，最先是针对 仏 =〜= 九=0的特殊情况，在研究类似 

(33) 的字母二进编码时提出来的。 E . N . Gilbert 和 E . F . Moore 的一篇非常有趣的 
文章 [Beii System Tech.J. 38(1959) ，933〜 968] 中讨论了这个问题，以及它与其它编 
码问题的关系。 Gilbert 和 Moore 证明了在特殊情况 P = 0 下的定理 M ， 并且发现利 
用类似于算法 K 的一个方法，但不必利用单调关系（17)，就可以在 OU 3 ) 步内构造 

出一^株最优树。 K . E . Iverson [A programming Language ( Wiley ， 1962) ，142〜 144] 独 

立地考虑了其它情况，即当所有 g 都为0时的情况。他建议如果把根选择成使左子 
树和右子树的概率尽可能地相等，则将得到一株最 优树； 可惜，我们已经发现这个思 
想行不通。 D . E . Knuth[Acta Informatica 1(1971),14^25,270] 随后考虑了一^般的 

P 和9个权的情况，并证明了这个算法可减少到0(77 2 ) 步； 他还阐述了编译程序应 
用中的一个例子，其中，树中的键码是在一种类似 ALGOL 语言中的“保留字”。对 
于巧= 0的情况，胡德强研究他自己的算法已经好些 年了； 由于这个问题的复杂性， 

关于这个算法正确性的一个严格证明不大好找，但是终于在 A . C . Tucker 的参与下 
他得到了一个证明 [ SMMJ.Appiied Math . 21 (1971),514 — 532]。许多年以后 
A . M . Garsia 和 M . L.Wachs 才发现了导致算法 G 的简化 [ S 1 COMP 6 (1997), 622 - 
642], 尽管他们的证明仍然是比较复杂的。上面的引理 W 、 X 、 Y 和 Z 是由 
J . H . Kingston 给出的 [ J . Algorithms 9 (1988), 129〜136 ]，也请参见胡德强、 
Kleitman 和 Tamaki 的论文 , SIAM J . Applied Math 37 (1979) ，246 〜 256，其中有胡- 

Tucker 算法的一个初等证明和对于其它费用函数的某些推广。 

定理 B 是由 Paul J . Bayer 给出的， MIT / LCS/TM - 69报告（麻省理工学院， 

1975 )。 他还证明了定理 M 的一个稍微弱的形式，上面更强的形式是由 
K• Mehlhorn 给出的 [SICOMP 6(1977) ,235-239] 0 

习题 

1.[15]算法 T 仅仅叙述了非空树的情形。为了使它对于空树也能正确地工作，应作些什么 
变化？ 
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2, [20] 修改算法 T 使它对 右穿线 树有效（参见 2.3.1 小节； 在这样的树中对称遍历更容易 
^'些 ） 。 

► 3.[20] 在 6.1 节中，我们发现，对顺序査找算法 6.1 S 稍作修改，就能使它更快些（算法 
6.1 Q )。 类似的技巧可以用来加速算法 T 吗？ 

4.[ M 24] ( A . D . Booth 和 A . J . T . Colin ) 给出随机顺序下的 iV 个键码，假设我们使用前2” - 
1个键码构造一株完全的平衡树，同时，对于0<》< 72,置 Y 个键码于》 级上； 然后使用算法 T 来 
插入剩下的键码。试问在一次成功的査找中，平均比较次数是多少？[提 示：修 改等式（2)。] 

► 5.[ M 25] 有11! = 39916800种不同的次序把名字 CAPRICORN 、 AQUARIUS 等插入到一株二分 

查找树中。 （ a ) 这些排列中有多少将产生图10? ( b ) 这些排列中有多少将产生一株蜕化的树，其 
中每个节点上的 LLINK 或 RLIM 为 A ? 

6. [ M 26 ] 设是 il ，2，... ，〃丨的这样一些排列… a ,, 的数目，它们使得如果使用算法 T 
逐次地把^插入到一株空树中，则当插入、时，恰好 要做々 次比较。（在这个问题 
中，将忽略插入力，〜，时所要做的比较。在正文的记号下，我们有 C ' n —亍 CZ k kP ， Jh \， 

因为这是对一株含有〃 - 1个元素的树的不成功的査找中所作的平均比较次数）。 

a ) 证明 = + U - DP 」 提示：考虑在这株树中〜 + 1 是否落在之下]。 

b ) 试求生成函数 G n ( z ) = l ： k P nk z k 的一个简单公式，并且借助于 Stirling 数使用你的公式来 
表达 P ” k 。 

c ) 这个分布的方差是多少？ 

7 . [ M 25 ] S . R . Arora 和 W . T . Dent 在以随机顺序把^个元素插入到一株开始时为空的树之 
后，为找出第 m 个最大的元素，所需要做的平均比较次数是多少？假定该元素的键码已给定。 

8. [ M 3 S ] 用箅法 T 由72个随机排序的键码构造一株树，以表示这株树的内部路径 
长度是々的概率（内部路径长度是在构造树的过程中，由树插入排序所作的比较次数）。 

a ) 试求定义相应的生成函数的递推关系。 

b ) 计箅这个分布的方差 [1.2. 7小节中的若干习题在这里可能有用！] 

9. [41 ] 我们已经证明，当以随机顺序插入键码时，树的查找和插入仅需要大约2 In N 次比 
较； 但实际上，顺序不能是随机的。试作一经验研究，看看树插入实际上对于一个编译程序和/或 
汇编程序内的符号表的适用程度如何。在典型的大型程序中的标识符，是否会产生一株相当好 
的平衡二分查找树？ 

► 10. [22] ( R . W . Floyd ) 也许我们对算法 T 的排序性质不感兴趣，但我们预料，输人将以非随 
机次序到来。通过使输入“看上去是”以随机次序进来的，试设计一个方法使树的查找有效。 

11. [20] 当从大小为 N 的一株树中删去一个节点时，在步骤 D 3 中实施 S — LLINK ( R ) 的最大 

可能次数是多少？ 

12. [ M 22] 当从/ V 个项目的一株随机树作一随机删去时，平均说来，步骤 D 1 转到 D 4 的次 
数是多少（见定理 H 的证明）？ 

► 13. [ M 23] 如果通过算法 D 删去一株随机树的根，则得到的树仍然是随机的吗？ 

► 14. [22] 证明磁带有附加步骤 D 1 | 的算法 D 产生的树的路径长度，决不多于没有这个附加 

步骤时产生的树的路径长度。试找出步骤 D 1 j 真正地减少路径长度的一种情况。 

15.[23] 设〜心〜〜是丨1，2,3,4!的一个排列，并设_; = 1,2或3。取有键码〜的一个元素 
的树，并使用算法 T 插入 a 2 ， a 3; 使用算法 D 删 去七； 然后使用算法 T 插入《 4 。在4! X 3 种可能 
性中有多少分别产生 （13) 中形状为 I 、11 、01、汉、¥型的树？ 
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► 16.[25] 删去操作是 可交换 的吗？即如果使用箅法 D 删去 X 和 V ，则得到的树是否和使用 
算法 D 删去 Y 和 X 所得到的一样？ 

17. [25] 证明，如果箅法 D 中的左和右的作用完全被颠倒，则容易推广这个箅法，使得它从 

右穿线树删 去一个给定的节点，同时保持必要的穿线（参见习题 2 )。 

IS .[ M 21] 证明由 Zipf 定律可推出（12)。 

19. [ M 23] 当输人概率满足等式 6.1-(11) 中定义的 “80-20” 定律时，式 （11) 近似的平均比较 
次数是多少？ 

20. [ M 20] 假设我们以频率递减的次序川把键码插人到一株树当中，这株 
树会比最优査找树坏得多吗？ 

21. [ M 20] 如果 p 、 q 、 r 是随机选择的概率，并受到条件 p + q^r = \ 的约束，则 （13) 中的树 
I 、 ii 、 hi 、 iy 和 v 分别为最优的概率是多少（考虑图14中诸区域的相对面积）？ 

22.1 M 20] 证明，当实施算法 K 的步骤 K 4 时 ， r [ ij _ 1] 决不大于 r[i + l ， j ]。 

► 23.[ M 23] 对于 AT = 40的情况，以及权仏二9，纪二 p 3 =…=户 40 = 1，如 = W = …= 940 = 0, 

求一株最优的二分査找树（不要使用计算机）。 

24 . [ M 25 ] 给定九 =I =0,并设其它权均非负，证明 （ A ，…，九 ；9 o , … ， g ”） 的一株最优树， 
可以通过在，…， — …，的任何最优树中以 



得到。 

25. [M20] 设 A 和 B 是实数的非空集合，并且如果下列性质成立， 

( aG " A ，6 G * B ， 且6〈^0蕴涵（<2€5，且6 G A ) o 

则定义 A<B 

a ) 证明这个关系对于非空集合是传递的。 

b ) 证明或否定：当且仅当乂<羞113<_6。 

26 . [ M22 ] 设 （h ，…， h ; go , …， L ) 是非负的权，其中 A + L = 证明当文从 0 变化到 
而（仏，…，九-以❿，…， 9 H ) 保持不变时，一株最优二分査找树的费用 40,”） 是具有整数斜 

率的“凹的、连续的、分段线性的” x 的函数。换言之，证明存在正整数…〉 C 和实常数0 

=工。<々 < … < 〜<^ + 1 = 00 ，以及： yo 〈: yi 〈…〈: y ；« ，使得对于，当 !时， 

c(0 ， w) = 3^ + 。 

27. [M33] 本题的目的是，证明每当权（仏，…，九；⑹，…，〜）非负时，最优二分査找树的根 

的集合借助于习题25中定义的关系，满足 

R ( i，j - 1) < R(i y j ) < R(i + 1 , j ) 对于 _ i > 2 

这个证明是通过对 _；■ - i 使用归纳法进行的；我们的任务是证明，假定且对于 j n ，上面 
的关系成立，则 R (0 y n - lXR (0, n) o [由左右的对称性，得出 inO ， rz )<_ R ( l ， n )]。 

幻证明如果 九二〜 =0, 则只（ 0 ，打 -1)< 只（ 0 ，打）（见习题 24 )。 

b ) 设 h + 在习题 26 的记号下 ，设^ 是当 〜 < 工 < 々 + 1 时最优根的集合以0，”），并 
设 El 是当 : r = & 时最优根的集合，证明 

R'o < R q < R \ <&<••*<<<& 

因此，由 （ a ) 部分和习题25,对于所有的工，我们有 R (0, n ~ l )^ R (0 i n) o 
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[提示：考虑 x = x h 的情况并假定两株树 



/(0, r - l ) t { r , n ) t (0, s -\) t ( s , n ) 

VI 在级 I W\ 在级 I ， 


都是最优的，且 s < r 和/> 〆 。利用归纳法假设来证明，有一株根为 © 的最优树使得@在 〆 级 

上，以及一株根为©的最优树，使得0在 Z 级上]。 

28. [24] 使用某种宏汇编语言来定义一个“最优二分査找”宏，其参数是一个最优二叉树的 
嵌套说明。 

29. [40] 使用图12的频率数据，对于31个最常用的英文字来说，什么是最坏的二分査找树？ 

30. [ M 34] 证明，当+2时，最优二分査找树的费用满足“四角不等式” 

c{i y j ) - c(i y j - 1 ) ^ c(i + 1,;) - c(i + l,j - 1) 

31. [ M 35] (陈国财）证明，在满足仏十…+九+ go +…+ L 二1的所有可能的概率集合 
，九；如，•••，〜）当中，当对于所有的込 A =0, 对于所有的偶数 j ，％ 二0以及对于所有奇数 

j , qj — l/T «/2 l 时，出现最昂贵的极小费用树。 

► 32.[ M 25] 设/2 + 1 = 2 7 " +々，其中0<々<2' 恰有= ) 个二叉树，其中所有外节点出现在 

级 m 和 m + 1 上。试证明，在所有这些树当中，如果我们应用算法 K 到对于充分大的 M 的权 
(/h ,+ <7 Q ，…， M + I ) 上时，我们得到对于权 （/> i ,…，九；❿，…， gO 来说具有极小费用 

的 一 株树。 

33. [ M 41] 为了找出使程序 T 的运行时间极小化的二分查找树，我们把量 7 C + C 1 极小化， 
而不是简单地把比较次数（：极小化。试给出一个算法，当这株树中的左、右分支代价不同时，它 
找出最优的二分査找树。[顺便指出，当右代价是左代价的两倍且节点频率都相等时，斐波那契树 
是最优的，参考 L . E.StanfeL JACM 17(1970) ,508- 517 0 在不能一次作三路比较的机器上，算法 

T 的一个程序将要在步骤 T 2 中作两次比较 ，一 次是关于等于的比较，一次是关于小于的比较； 
B . Sheil 和 V . R . Pratt 已经发现，这些比较不一定涉及同一个键码，所以，看来最好有一株这样的 
二叉树，其内节点确定一个相等测试或一个小于测试，但不是两者兼备。这种情况作为上面所述 

的问题的另一种可能性，对它迸行探讨是很有意思的。] 

34 . [ HM 21 ] 证明当 iV — oo 时，多项式系数 

I N \ 

、 PiN ， p 2 N ，…， p„N 厂 

的近似值同熵 Hbbh ， …，么）有关。 

35. [ HM 22] 通过确立不等式 (24) 来完成定理 B 的证明。 

► 36 . [ HM 25 ] (Claude Shannon ) 设 X 和 Y 是具有有限范围 I A ，…，〜丨和1 ，…，: yrj I 的随机 

变量。且设 = = 々），％ =尸 〆 和 y = %)。 设 H ( X ) = H ( Pl r -, 

、）和 H ( = ，…，〜）是单个地变量分别的熵，而 H ( X , ，…， 是它们联合 

分布的熵。证明 

H ( X ) < H ( XY ) < H ( X ) + H ( Y ) 

[提示 ：如果 /是任何凹函数，我们就有 £/ U )</( Er )]。 

37 . [ HM 26 ] ( P . J ■ Bayer , 1975) 假设 （ Pi ， …， ) 是 一 个随机概率分布，即对于和 
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Pi + … + p n = l 由九>0定义的在 n - 1维单纯形中的一个随机点。（等价地说 ，（1^ ，… P „) 是在 

习题 3.3.2-26 意义下的随机间隔的集合。）什么是熵，…， P „) 预期的值？ 

38.[ M 20] 尽管我们仅在 5 o < 5 l <5 2 0.<5„ 的情况下证明了定理 M , 但说明为什么一般情 

况下它都成立？ 

► 39.[ M 25] 设叫 ，…，叫是满足％ +…+叫=1的非负的权。试证明，在2.3.4‘5小节中 

所构造的 Huffman 树的加权路径长度小于 H ( ，…， ) + 1。提 示：参 见定理 M 的证明。 

40 . [ M 26 ] 完成引理 Z 的证明。 

41. [2 J ] 图18示出了一个混乱的二叉树的构造。试在自左至右次序下列出它的叶。 

42. [23] 说明为什么子程序 C 维持2-递减条件(31)。 

43. [20] 说明如何有效地实现 Garsia - Wachs 的算法阶段2。 

► 44. [25] 说明如何有效地实现 Garsia - Wachs 的算法阶段3。 

► 45.[30] 说明如何实现子程序 C 使得 Garsia-Wachs 的算法总共的运行时间至多是 OU log ”）。 

46. [ M 30] (黄泽权和张系国）考虑一个方案，这个方案也是通过算法 T 构造出二分査找树 
的，惟一区别是，当节点数达到形如 2”- 1的一个数时，这株树被重新组织为一株完全平衡的均匀 
树，且对于 0< A < n ， 有个节点在级々上。证明，在构造这样的树时所作的比较次数平均为 
N lg iV + O ( N ) (不难证明，重新组织所需要的时间量为 O ( N ))。 

47. [ M 40] 把定理 B 和 M 从二叉树推广到 r 叉树。如果可能，也像在习题33中那样，允许 

分支费用是非均匀的。 

48. [ M 47] 在随机插入和删去的条件下对于二分査找树的稳定状态进行严格的分析。 

49. [ HM 42] 试分析一个随机二分査找树的平均髙度。 


6.2.3 平衡的树 


我们刚刚学习了树插入算法，当输入数据是随机的时，这个算法将产生好的査 
找树，但是仍然有出现一株令人讨厌的蜕化树的可能性。也许我们可以想出一个算 
法，它使树总是最 优的； 但不幸的是，似乎这非常困难。另一个思想是，记住总的路 
径长度，而且当它的路径长度，比如说，超过 5 N lg N 时就完全重新组织此树。但在 

构造这株树的过程中，这个方法可能要求大约次重新组织。 

1962年两名俄国数学家 G . M . Adelson - Velsky 和 E • M • Landis ，对维持一株好 
査找树的问题，发现了一个非常漂亮的解 [Doklady Akademii^ Nauk SSSR 146 
(1962),263 〜 266; 英文翻译在 Soviet Math . 3 ， 1259〜1263上]。他们的方法仅仅要 

求每个节点增加额外两个二进位，并且决不使用多于 O ( logN ) 个操作来查找树或插 
入一个项目。事实上，我们将看到，他们的方法也导致了一项好的表示任意长度 N 
的线性表的一般技术，使得下列每个操作仅以 O ( logiV ) 时间单位就可 完成： 

i ) 找岀具有一给定键码的一个项目。 

ii ) 给定 I 找出第 々个 项目。 

iii ) 把一个项目插入到一个确定的位置。 

iv ) 删去 一 个确定的项。 

如果我们对线性表使用顺序分配，则操作⑴和 U ) 是高效的，但操作（出）和 （ iv ) 
却花费阶为 N 的 步骤； 另一方面，如果我们使用链接分配，则操作 （ iii ) 和 （ iv ) 是高效 
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的，但是操作⑴和 （ ii ) 花费阶为 N 的步骤。线性表的一种树表示可以以 0 (log N) 
步骤来做 所有四个操作 。 并且它也可能相当髙效地来做其它标准操作，例如，我们 
可以在 0 (log ( M + N )) 步内把一个 M 个元素的表同一个 iV 个元素的表链接起 
来。 

实现所有这些的方法，涉及到我们称之为平衡树的概念。（许多作者也把它们 
称作 AVL 树，其中的 AV 代表 Adelson - Velsky M L 代表 Landis 。） 上一段是给平衡 

树做广告，它把平衡树宣扬成好似包治百病的万灵药，而使所有其它数据表示形式 
都相形 见绌； 当然，我们对于平衡树也应当有一种平衡的态度！在不涉及所有上面 
四个操作的应用中，我们可能达到少得多的开销和更简单的程序设计。而且，除非 
N 相当大，否则平衡树并没有 优点； 因此，如果有花费64 lg JV 时间单位的一个高效 
方法，和花费 2 N 时间单位的一个低效方法，则我们将使用低效方法，除非 iV 是大 
于256的。另一方面， N 也不应该 太大; 平衡树主要适合于数据的内部存储，而对于 
6.2.4 小节中的外部直接存取文件，我们将研究更好的方法。由于内存储器随着时 
间的推移似乎变得越来越大，因此平衡树也就越来越重要。 

一株树的高度定义为它最大的级，即从根到一个外节点的最长路径的长度 。一 
株二叉树称为平衡的，如果每个节点左子树的髙度同它的右子树的高度之差不超过 
±1。图20示岀了具有17个内节点和髙度为5的一株平 衡树； 每个节点的平衡因 
子用+，•或 _ 表不，根据右子树的高度减左子树的高度是+ 1、0或 -1 而定。图8 
(6.2.1 小节）中的斐波那契树是另一株髙度为5的平衡二叉树，它仅有12个内节 
点； 在该树中的平衡因子大多是 -1。 图 10(6.2.2 小节）中的黄道天宫树不是平衡 
的，因为在 AQUARIUS 和 GEMINI 两个节点处都不符合关于子树的高度限制。 



图20 —株平衡的二叉树 

平衡性这一定义表示 了最优 二叉树（要求所有外节点都在两个相邻的极上）和 
任意二叉树（没有限制）之间的折衷。因此自然要问 ，一 株平衡树比最优树差多少。 
答案是，它的查找路径长度决不会比最优树长45%以上。 

定理 A ( Adelson - Velsky 和 Landis) 具有 N 个内节点的一株平衡树的高度总 
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是处于 lg (N + 1) 和 1.44051 g (N +2)-0.3277 之何。 

证明髙度为 A 的一株二叉树显然不能有多于 2 A 个外 节点； 所以 N + l <2\ 

即在任何二叉树中 A > rig ( N + l)lo 

为了求 h 的极大值，我们把这个问题换一个提法，问在高度为 A 的一株平衡树 
中可能的极小节点数是多少。设是具有最小节点的这样一 株树； 则这个根的子 

树之一，比如说左子树，高度为 /I -1，而另一株子树高度为 /I -1 或 A - 2。由于我 
们要求乃的节点数为极小，所以可以假定这个根的左子树是 丁； ，而右子树是 

T h — 2 。 这段论证表明，阶为 h + 1 的斐波那契树，在 高度为 △ 的所有可能的平衡树 

当中，节点数最小(见 6.2.1 小节中斐波那契树的定 义）。 于是 

N > F h+2 - 1 > 們 S _2 

如同在定理 4.5.3 F 的推论中那样，所述结果得证。 ■ 

这个定理的证明表明，在一株平衡树的查找中，仅当这株树至少包含 F 28 - 1 = 

317,810个节点时，才需要25次以上的比较。 

现在考虑当利用树插入（算法 6.2.2 T ) 把一个新节点插入到一株平衡树中时， 

将发生什么情况。在图20中，如果这个新节点居于囚、囝、回、0、_或■处，则 

这株树将是平衡的。但如果新节点落在别处，则需要作某些调整。问题发生在当我 
们有平衡因子为+ 1的一个节点时，这个节点的右子树在插入之后就更高了。或 
者，对偶地，如果平衡因子是-1，则左子树就更高了。不难看到，实际上只有如下两 
种情况会引起麻烦： 



(如果我们反演这些图式，左右交换，则会出现另外两种实际上相同的情况。）在 
这些图式中，大的矩形分别表示有图中所亦高度的子树。当一个新兀素 
刚把节点 B 的右子树的高度从/ I 增加到 A + 1 时出现情况1，当新元素增加 B 的左 
子树髙度时出现情况2。在第二种情况下，我们或者有 A =0( 所以 X 本身是新节 
点），或者节点 x 有高度分别为 U - i ，/0 或 U，/i -1) 的两株子树。 

在上述两种情况下，简单的变换将恢复平衡，同时保持树节点的对称次序，见(2)。 

在情况1中，我们简单地向左“转动”树，把加到 A 而不是加到 B ， 这个变换好 
像是对一个代数公式应用结合律似的，以 U /?) y 来代替 a (/? y ) D 在情况2中，我们 
使用双重转动，首先向右转动 （ X ， B )， 然后向左转动 （ A ， X )。 在两种情况下，都只 
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情况1 



情况2 



( 2 ) 


需要改变树的少量链接。而且，新树的髙度是 /I +2,这恰是在插入之前的 高度； 因 
此原先在节点 A 上面的树的剩余_分(如果有的话），总是保持平衡的。 

例如，如果我们把一个新节点插入到图20的位置回处，则在一个转动之后（情 

况 1) 得到图21所示的平衡树。注意，若干平衡因子已经改变。 



图21图20的树，在插人了新的键码尺之后已重新平衡过 

这个插入步骤的细节可以以若干方式给出。乍一看去，为了记住哪一些节点将 
受影响，似乎需要一个辅助的栈，但下面的算法利用了这样一个事实即在插入之前 
(1) 中节点 B 的平衡因子为0,从而贏得了速度。 

算法 A (平衡树的查找和插入） 给定一个记录表，它形成如上所述的一株平衡 
的二叉树，本算法查找一个给定的变元 X 。如果 K 不在表中，则把一个包含 K 的 
新节点插入到树的适当位置，必要时重新平衡这株树。 ， 

如同在算法 6.2.2 T 中那样，假定树的节点含有 KEY 、 LLINK 和 RLINK 诸字段，我 
们还有一个新的字段。 

B ( P ) = NODE ( P ) 的平衡因子 

即右子树的高度减去左子树的 高度； 这个字段的内容总是+ 1、0或者-1。一个特 
殊的表头节点也出现在树的顶上，在单元 HEAD 中； RLINK ( HEAD ) 的值是指向树根的 
指针，而 LLINK ( HEAD ) 用来记住树的整个高度。（这个算法实际上不需要知道髙度， 
但在下面讨论的连接步骤中它是有用的）。我们假定这株树是 非空的 ，即 RLINK 
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(HEAD) 关八。 

为了叙述方便，本算法使用记号 LINK ( a , P ) 作为 a = -1 H LLINK ( P ), 以及 a = 
+ 1时 RL 工皿 ( P ) 的同义语。 

A 1 •[初始化]置 T — HEAD , S — P — RLINK ( HEAD )。 （指针变量 P 将沿树下移， S 将 

指向可能需要重新平衡的位置，且 T 总是指向 S 的父亲）。 

A 2. [比较]如果 1 C < KEY ( P )， 则转到 A 3; 如果 K > KEY ( P )， 则转到 A 4; 如果 

= KEY ( P ) ，则查找成功地结束。 

A 3 •[左移]置 Q — LLINK ( P )。 如果 Q = A ，则置 Q<=AVAIL 和 LLINK ( P)—Q 并转 

到步骤 A 5。 否则，如果 B ( Q ) 关0,则置 T — P 和 S — Q 。 最后，置 P — Q 并返回 
到步骤 A2 。 

A 4 •[右移]置 Q — RLINK ( P )。 如果 Q = A ，则置 Q<=AVAIL 和 RLINK ( P)—Q 并转 

到步骤 A 5。 否则，如果 B ( Q ) 关0,则置 T — P 和 S — Q 。 最后，置 P — Q 并返回 
到步骤 A2 。 （本步骤的最后部分可以同步骤 A 3 的最后部分组合在一起）。 
A 5. [插入](我们刚刚把一个新节点 NODE(Q) 链接到这株树中，而且它的字段 

需要初始化。）置 KEY ( Q )— K ， LLINK ( Q )— RLINK ( Q )— A , B ( Q )— 0。 

A6 . [调整平衡因子](现在在 S 和 Q 之间的诸节点上的平衡因子需要从0变成 

为±1。）如果 JC < KEY ( S ), 则置 a —-1, 否则置 a — + 1。然后置 R — P — 
LINKU ， S ), 并重复地做下列操作0次或多次，直到 P = Q 为止 ：如果 K < 

KEY ( P ), 则置 B ( P )—-1 和 P — LLINK ( P ); 如果 K > KEY ( P ), 则置 B ( P )—+ 

1 和 P — RLINK ( P )。 （如果 K = KEY ( P ), 则置 P = Q 并且进到下一步。） 

A 7. [平衡动作]现在出现若干 情况： 

i ) 如果 B ( S ) =0 (这株树已经长得更髙），则置 B ( S ) — a , LLINK ( HEAD ) — 

LLINK ( HEAD ) + 1，并结束此算法。 

ii ) 如果 B ( S ) = - a (这株树更平衡了），则置 B ⑶ — 0并结束此算法。 

iii ) 如果 B ( S ) = a (这株树失去了平衡），则如果 B ( R ) = a 转到步骤 A8 , 如果 
B ( R )= 转到步骤 A 9。 

(情况 （ iii ) 对应于当 a = +1 时 （1) 中叙述的 情况； S 和 R 分别指向节点 A 
和 B , 且 LINK ( - a , S ) 指向 a ，等等。） 

A8 . [单转动]置 P — R , LINKU ， S )— LINK (- a , R ), LINK (- a ， R )— S , B ( S)—B 

⑻ — 0。转到 A10 。 

A 9. [双转动]置 P — LINK (- a , R )， LINK (- a , R )— LINKU ， P )， LINK ( a , P )— R ， 

LINK ( a , S )^- LINK ( - a , P ) , LINK ( - a ， P )— S 。 现在置 

a ,0) 如果 B ( P ) = a 

( B ( S )， B ( R ))— j (0,0) 如果 B ( P ) =0 (3) 

、(0， a ) 如果 B(P) = - a 

然后置 B ( P )— 0。 

A 10. [最后一步](我们已经完成了重新平衡的变换，把 （1) 变成 (2)， 并且 P 指 

向新的根且 T 指向旧的子树根 S 的父亲。）如果 S = RLINK ( T ) 则置 RLINK 
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图22平衡树的査找与插入 

( T )— P ， 否则置 LLINK ( T )— P Q I 

这个算法是相当长的，但它分为三个简单的部分：步骤 A 1 〜 A 4 进行查找，步骤 
A 5 〜 A 7 插人一个新节点，而必要时步骤 A 8 〜 A 10 重新平衡这株树。实际上，如果 
这株树是 穿线的 （参见习题 6.2. 2-2)，则可使用同样的方法，因为平衡动作决不需要 
对穿线链接作困难的变动。 

我们知道，这个算法花费大约 C log JV 个时间单位 （ C 是某个常数），但重要的 
是要知道 C 的近似值，使得我们能了解 iV 应当多大，才值得使用平衡树。下列的 
MIX 实现能增进我们对这个问题的 理解。 

程序 A (平衡树的查找和插入） 这个实现算法 A 的程序使用形如 

(4) 



的树节点， rA = K ， rIlEp ， r I 2 EQ ， rI 3 = R ， r I 4 = S ， rI 5 三 T 。 重复步骤 A 7 〜 A 9 的代 
码，使得 a 的值隐式地(不是显式地）出现在程序中。 

01 B EQU 0:1 

02 LLINK EQU 2:3 
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6.2 通过键码比较进行查找 


03 

RLINK 

EQU 

04 

START 

LDA 

05 


ENT5 

06 


LD2 

07 


JMP 

08 

4H 

LD2 

09 


J2Z 

10 

1H 

LDX 

11 


JXZ 

12 


ENT5 

13 

2H 

ENT4 

14 


ENT1 

15 


CMPA 

16 


JG 

17 


JE 

18 


LD2 

19 


J2NZ 

20 

5H 

LD2 

21 


J2Z 

22 


LDX 

23 


STX 

24 


STA 

25 


STZ 

26 


JL 

27 


ST2 

28 


JMP 

29 

1H 

ST2 

30 

6H 

CMPA 

31 


JL 

32 


LD3 

33 


JMP 

34 


LD3 

35 


ENT1 

36 


ENTX 

37 


JMP 

38 

4H 

JE 

39 


STX 


4:5 

K 

HEAD 

0,5(RLINK) 

2F 

0 ， 1(RLINK) 

5F 

0,2(B) 

* +3 
0,1 
0,2 
0,2 
1,1 
4B 

SUCCESS 

0,1(LLINK) 

IB 

AVAIL 

OVERFLOW 

0,2(RLINK) 

AVAIL 

1,2 

0,2 

IF 

0,1(RLINK) 

* + 2 

0,1(LLINK) 

1,4 

* +3 

0,4(RLINK) 

* + 2 

0,4(LLINK) 
0,3 
一 1 
IF 
7F 

0，1(1:1) 


1 

1 

1 

1 

C2 

C2 

C-l 

c-l 
£) — 1 
D 
C 
C 

C 

Cl 

Cl- s 

Cl-s 

1 - s 
1 - s 
1 - s 
1 - s 
1 - s 
1-s 
1-s 

A 

A 

1- S-A 
1-S 

1-S 

E 

E 

1- S-E 
1-S 
1-S 
1-S 

F2 + 1 - S 

F2 


Al . 初始化 

T^HEAD 

Q^-RLINK(HEAD) 

转 A2 且 S—P—Q 
A4 . 右移。 Q—RLINK(P) 

如果 Q = A 则转 A5 

rX-B(Q) 

如果 B(Q) =0 则转移 

T—P 
S—Q 
P—Q 

A2 •比较 

如果 K>KEY(P) 则转到 A4 
如果 iC = KEY(P) 则转出 
A3 • 左移。 Q^-LLINK(P) 

如果 Q ^ A 则转移 
A5 •插入 


QfAVAIL 
KEY(Q)—K 

LLINK(Q)—RLINK(Q)—A 
KCKEYa) 吗？ 

RLINK(P)—Q 


LLINK(P)—Q 

A6 . 调整平衡因子 
如果 iC<KEY(S ) 则转移 

R<~RLINK(S) 


R^-LLINK(S) 

R—R 

rX—-1 

转到比较循环 

如果 1C = KEY(P) 则转到 A7 
B(P)—+ 1( 它原是 + 0) 
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40 

41 


1H 


LD1 

CMPA 


0 ， 1(RLINK) 


1 


42 


JGE 

4B 

43 


STX 

0,1 ⑻ 

44 


LD1 

0,1(LLINK) 

45 


JMP 

IB 

46 

7H 

LD2 

0,4 ⑻ 

47 


STZ 

0,4 ⑻ 

48 


CMPA 

1,4 

49 


JG 

A7R 

50 

A7L 

J2P 

DONE 

51 


J2Z 

7F 

52 


ENT1 

0,3 

53 


LD2 

0,3(B) 

54 


J2N 

A8L 

55 

A9L 

LD1 

0,3(RLINK) 

56 


LDX 

0,1(LLINK) 

57 


STX 

0,3(RL 工皿 ) 

58 


ST3 

0 ， 1(LLINK) 

59 


LD2 

0,1(B) 

60 


LDX 

Tl,2 

61 


STX 

0,4 ⑻ 

62 


LDX 

T2,2 

63 


STX 

0,3(B) 

64 

A8L 

LDX 

0,1(RLINK) 

65 


STX 

0,4(LLINK) 

66 


ST4 

0 ， 1(RLINK) 

67 


JMP 

8F 

68 

A7R 

J2N 

DONE 

69 


J2Z 

6F 

70 


ENT1 

0,3 

71 


LD2 

0,3 ⑻ 

72 


J2P 

A8R 

73 

A9R 

LD1 

0,3(LLINK) 

74 


LDX 

0,1(RLINK) 

75 


STX 

0,3(LLINK) 


F2 P—RLINK(P) 

F + 1- S 

F + 1 - S 如果 iC>KEY(P) 则转移 

FI B(P)—-1 

FI P—LLINK(P) 

FI 转到比较循环 

1- S A 7. 平 衡动作 o rI 2— B ( S ) 

1 - S B ( S )—0 

1- S 

1 - S 如果 iC>KEY(S) 则转到 

a + 1 子程序 

U1 如果 rI 2= - a 则转出 

Gl + Jl 如果 B(S) 原来是 0, 则转移 

G 1 P—R 

G 1 rI 2— B ( R ) 

G1 如果 rI 2 = a 则转 A 8 

HI A 9 .双转动 

HI LINK(a,P^-LINK( - a,R)) 

HI -^LINK( - a ,R) 

HI LINK(a ， P)—R 

HI rI 2— B ( P ) 

HI - a ，0 或 0 

HI —B(S) 

HI 0,0,或 a 

HI — B ( R ) 

G 1 A 8 .单转动 

G1 LINK(a,S)^-LINK( - a ,P) 

G1 LINK( - a ,P)^S 

G1 同其它分支合并 

U2 如果 rI 2=- a 则转出 

G2 + J2 如果 B ( S ) 原来为0则转移 

G 2 P—R 

G2 rI 2— B ( R ) 

G2 如果 rl 2 = a 则转 A 8 

H2 A 9 .双转动 

H2 LINK(a ,P^~LINK( — a ,R)) 

H2 —L 工皿 （ -a,R) 
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76 

ST3 

0,1(RLINK) 

H2 

LINK(a ， P)—R 

77 

LD2 

0,1(B) 

H2 

rl2—B(P) 

78 

LDX 

T2,2 

H2 

- a ,0 或 0 

79 

STX 

0,4(B) 

H2 

—B(S) 

80 

LDX 

Tl,2 

H2 

0,0 , 或 a 

81 

STX 

0,3(B) 

H2 

—b(r) 

82 

A8R LDX 

0,l(LLINKO 

G2 

A8 •单转动 

83 

STX 

0,4(RLINK) 

G2 

LINK(a,S)^-LINK( - 

84 

ST4 

0,1(LLINK) 

G2 

LINK( — a ， P) —S 


85 

86 

87 

88 

89 

90 

91 

92 

93 

94 

95 

96 

97 

98 

99 

100 
101 


8H 

A10 


T1 

T2 


6H 

7H 


DONE 


STZ 

CMP4 

JNE 

ST1 

JMP 

ST1 

JMP 

COM 

CON 

CON 

CON 

ENTX 

STX 

LDX 

工 NCX 

STX 

EQU 


0,1(B) 

0,5(RLINK) 



+ 3 


0,5(RLINK) 

DONE 

0,5(LLINK) 

DONE 



0 

0 


一 1 



0,4(B) 

HEAD(LLINK) 


HEAD(LLINK) 


G 

G 

G 

G 3 

G 3 

G 4 

G 4 


J2 

J 



J 



B(P) 


0 


A10 •最后 


步 


如果 RLINK(T) 关 S 则转移 

RLINK(T)—P 

转岀 

LLINK(T)—P 

转出 


P 


(3 ) 的表 


rX 



B(S)—a 
LLINK(HEAD) 



LLINK(HEAD) 


* 


一 s 


插入完成 


对平衡树插入的分析 [ 对数学不感兴趣的读者，请跳到 （ 10 )] 为了计算岀算 
法 A 的运行时间，我们将要知道下列问题的 答案： 

• 在这个查找期间，作了多少次比较？ 

• 节点 S 和 Q 将相距多远？（换句话说 , 在步骤 6 中需要作多少调整？） 

• 我们要如何经常地做单转动或双转动？ 

使用定理 A 来推导最坏情况运行时间的上限并不困难，但是当然在实践中我们需要 
知道平均的特性。由于这个算法看起来十分复杂，因此关于平均特性的理论确定还 
没有成功地完成，但已经得到了若干有趣的理论和经验的结果。 

首先我们可以问及有关有 n 个内节点和高度为 A 的平均二叉树的个数对 

于小的 /I ,从关系式 
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B 0 ( z ) = 1, B l ( z ) = z , 私 + 1 ( 之） = zB h ( z )( B h ( z ) + IBh .^ z )) (5) 

不难计算生产函数 B h ( z ) = 参 见习题 6 )。 

于是 

B 2 (z)= 2z 2 + z 3 

z ) = 4z 4 十 6z 5 十 4 之 6 + 之 7 

B 4 (z) = 16 z 7 十 32 z s + 44 之 9 + … + Sz 14 + z 15 

而且，对于—般地说， Bjz ) 有下列形式 

2 F h + x -\ z F h+2 -\ + 2 F “r + 复杂的项 + 2 卜 ^ 2 、 2 + 〆— 1 (6) 

其中 + i + （这个公式推广了定理 A 。） 有高度 A 的平衡树的总数是私 

= 5^1)。它满足递 推式： 


B 0 二 Bi = 1 B h + l = B 2 h + 2B h B h ^ { 


使得 B 2 = 3, B 3 = 3-5, B 4 = 3 2 -5-7, B 5 = 3 3 -5 2 *7-23； 而且，一般地 





(7) 


( 8 ) 


其中 Ao = l ， A! — 3, A 2 = 5, A 3 = 7, A 4 — 23, A 5 = 347, , A h — A h - ^—2 + 2 。 

序列艮 和 A , 非常快速地 增长； 事实上，它们是双倍指数的 ：习题 7 表明，存在一个 
实数0〜 1.43687 使得 


B h 二 L〆 」 -L〆 -1 」 +L〆 -2 」-••• + ( - 1) 叶 〆 」 (9) 

如果我 们把凡 树的每一个都认为是同等可能的，则习题8证明在高度为 A 的一株 
树中节点的平均个数为 


B ；( l )/ B ,( l ) ^ (0.70118)2" - 1 (10) 

这表示具有 N 个节点的一株平衡树的高度通常比起接近 log # / V 来要更接近于 log 2 N 得 
多。 

不幸的是，这些结果实际上和算法 A 没有多大关系，因为该算法的机制使得某 
些树比起其它树更有可能得多。例如，考虑 N = 7 的情况，其中17株平衡树是可能 
的。有7! =5040个可能的次序，其中可以插人7个键码，而且有2160次得到如下 
完全平衡的“完备树”。 
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相反，斐波那契树 



( 12 ) 


仅出现144次，而类似的树 



(13) 


出现216次。以任意四节点的平衡树来代替 （12) 和 （13) 的左子树，然后反射左和 
右，产生16种不同的树；由 （12) 产生的八种每个出现144次，而由 （13) 产生的那些 
每个出现216次。令人惊讶的是 ，（13) 竟比 （12) 更为普遍。 

完全平衡树以这样高的概率被得到这一事实，对应于相同概率的情况时的 （10) 
一起，使得以下断言似真，即对于一株平衡树的平均查找时间应该是大约 \gN + c 
个比较，其中 c 是某个小的常数。但是 R . W . Floyd 已经发现了 IgN 的系数不大可 

能为精确的1，因为这株树的根将接近于中间。而它的两株子树的根将接近于四分 
之一 的点； 于是单转动和双转动不能容易地使根保持接近中间。经验测试指岀，除 
非当 N 很小时，为插入第 N 个项所需要的真正平均比较次数为 1.01 lg N + 0.1 o 

为了研究算法 A 的插人和重新平衡阶段的特性，我们可以像在图23中所示那 
样对平衡树的外节点进行分类。由一个外节点导出的通路可通过“ + ”和的一 
个序列来确定 （+ 表示一个右链接，-表示一个左链接），我们写下链接的描述直到 
达到有一个非空平衡因子的头一个节点为止。或者如果没有这样的节点，就直到达 
到根为止。然后根据当把一个内节点插人给定位置时，新的树将被平衡或不被平 

衡，我们写 A 或 B 。 因此从@开始的通路是+ + - B ， 意思是“右链接，右链接，左链 

接，不平衡”。以 A 结尾的一个描述在插人一个新节点之后不要求重新 平衡； 以+ + 
B 或- - B 结尾的一个描述要求单个 转动； 以+ - B 或- + B 结尾的一个描述要求一 
个双转动。当有 k 个链接岀现在描述中时，步骤 A 6 要调整 k -1 个平衡因子。因此 
描述给出了支配步骤 A 6 到 A 10 的运行时间的实质性的事实。 
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m 23在插入之后描述算法 A 的特性的分类代码 


表1插入第 N 项的近似概率 


通路长度走 

无重新平衡 

单转动 

双转动 

1 

.143 

.000 

.000 

2 

.152 

.143 

.143 

3 

.092 

.048 

.048 

4 

.060 

.024 

.024 

5 

.036 

,010 

.010 

>5 

.051 

.009 

.008 

平均 2.78 

总共 .534 

.233 

.232 


对于 100< iV <2000 的随机数的经验测试给出了对于各种类型的通路在表1 
中示出的近似 概率； 显然，当 iV — oo 时，这些概率迅速地趋向极限值。表2给出当 N 

=10时对应于表1的精确概率，并且把输入的10!个排列看做是同等可能的。（对 
于所有 iV >7, 在表1中作为 “.143” 出现的概率实际上等于1/7;参见习题11。当 N 
<15时，单转动和双转动是同等可能的，但当 iV >16 时双转动稍微不太经常出现）。 

由表1，我们可以看岀 k ( l 时的概率大约是 .143 + .153 + .143 + .143= .582； 

因此，步骤 A 6 几乎在60%的时间里是十分简单的。在该步中平衡因子从0变成 
±1的平均次数大约是1.8。在从步骤 A 7 到 A 10 的过程中平衡因子从±1变成0的 
平均次数近似于 .534 + 2(. 233 + .232) 〜1 .5 ;因此，平均说来，插入一个新节点增 
加大约 1.8-1.5 = 0.3 不平衡的节点。这和下列事实是相一致的，即在由算法 A 所 
构造的随机数中，在所有节点中，有68%被发现是平衡的。 
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表 2 插入第10项的精确概率 


通路长度々 

无重新平衡 

单转动 

双转动 

1 

1/7 

0 

0 

2 

6/35 

1/7 

1/7 

3 

4/21 

2/35 

2/35 

4 

0 

1/21 

1/21 

平均247/105 

53/105 

26/105 

26/105 


C . C . Foster [ Prc . ACM Nat . Conf . 20 (1965)，192 〜 205] 已经提出算法 A 的特性 
的一个近似模型。这个模型不是严格地精确的，但对于给出某些启示说来，它是足 
够正确的。假定是由算法 A 构造的一株大的树中一个给定节点的平衡因子为0 

的概率。于是，平衡因子为+ 1的概率是 |(1- A )， 它为 -1 的概率同样是|(1- 

P )。 我们进一步假定（但没有论证）所有节点的平衡因子都是独立的。于是，步骤 
A 6 恰好置 A - 1个平衡因子为非0的概率为 pH (1 - A )， 所以々的平均值是 
11(1- p)o 我们需要转动树的一部分的概率是 g 〜 l /2。 平均说来，插入一个新节 
点将增加平衡节点的个数 个; 这个数在步骤 A 5 中实际上是1，在步骤 A 6 中是- 
p /( l - p ), 在步骤 A 7 中是 g , 在步骤 A 8 和 A 9 中是 2 g , 所以我们有 

p = I - pl(l ~ p ) + 3 q ^ 5/2 - pl(l - p ) 

对 P 求解产生出和表1相当一致的 结果： 

p — ^ 0.649； 1/(1 - p ) ^2.851 (14) 

程序 A 的查找阶段（行 01-19) 的运行时间是 

10 C + C 1 + 2 D + 2 - 3 S (15) 

其中和本章以前的诸算法一样，而 D 是在查找通路上遇到的不平衡节点 

的个数。经验测试表明，我们可以取 D ^ yC , Cl ^ y ( C + S ), C + S ^ l . 01 lg N 

+ 0.1, 所以平均的查找时间近似于 11.3 lg N + 3-13.7 S 单位。（如果查找的执行 
要比插入经常得多，我们当然可以对查找使用一个分开的更快的程序，因为那将没 
有必要来考察平衡 因子； 于是对于一次成功的平均运行时间将仅仅为大约 （6. 6 
lg N -3.4)^， 而且最坏情况的运行时间事实上将比由程序 6.2.2 T 得到的平均运 
行时间还好些）。 

当查找不成功时，程序 A 的插入阶段（行 20-45) 的运行时间。为 8 F + 26+ (0,1 
或 2) 个单位。表1的数据表示，平均说来，8。我们是否增加总的高度，或者 
不作重新平衡就转出，或做一个单转动或双转动，决定重新平衡阶段（行 46-101) 花 
费 16.5,8,27.5 或 45.5( ±0.5) 个单位。第一种情况几乎决不出现，而其它情况以 
近似概率 .534,.233,. 232出现，所以程序 A 的组合插入一重新平衡部分的平均运 
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图24用于通过位置査找的_字段 


行时间大约为 63 w 0 

这些数字表明，在内存中对于一株平衡树的维护是相当快的，尽管这个程序相 
当长。如果输入数据是随机的，则 6 . 2.2 小节的简单树插入算法的每个插入快大约 
5(^; 但是平衡树算法保证，即使对于非随机的输入数据，它仍然是可靠的。 

程序 A 同程序 6.2.2 T 的一个比较方法，是考虑后者的最坏情况。如果我们研 
究以递增的次序插入 N 个键码到开始时为空的一株树中所需要的时间，则程序 A 
在 N <26 时比它慢，而在 N > 21 时比它快。 

线性表表示现在我们转到本小节开始时所作的断言，即平衡树可以以这样一 
种方式来表示线性表，使得我们既可以快速地插入诸项（克服顺序分配的困难），也 
可以对表项目实施随机存取（克服链接分配的困难）。 

这种想法就是在每个节点中引进一个新的称为 RANK 的字段，它指出该节点在 
其子树内的相对位置，即，1加上它左子树中节点的个数。图24标出了图23的二叉 
树的 RANK 值。我们可以整个地消去 KEY 字段； 或者，如果需要，也可以同时有 KEY 
和 RANK 两个字段，使得有可能通过它们的键码值或者它们在表中的相对位置来查 
找项目。 

利用这样一个 _ K 字段，通过位置进行查找，是对我们在一直研究的査找算法 
的一项直截了当的修改。 

算法 B (通过位置进行树查找）给定表示成一株二叉树的线性表，给定々，本 
算法寻找该表的第々个元素（在对称次序下树的第々个节点）。假定二叉树有 
LLINK 字段和 RLINK 字段，以及如算法 A 中那样的一个表头，加上如前所述的一个 

RANK 字段。 

B 1 •[初始化]置 M —々， P—RLINK(HEAD ) 0 

B 2 •[比较]如果 P = A ，则此算法以失败告终。（仅当々大于树中的节点数，或 

是 <0时，这才可能发生）。否则，如果 M < RANK ( P )， 则转到 B 3; 如果 M > 
RANK ( P ), 则转到 B 4; 如果 M = RANK ( P ), 则本算法成功地结束 ( P 指向第々个 
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节点）。 

B 3 •[左移]置 P — L ] LINK ( P ) 并返回 B 2。 

B 4 •[右移]置 M — M - RANK ( P ) 和 P — RLIM ( P ) 并返回 B 2。 ■ 

在本算法中惟一有趣之点是在步骤 B 4 中 M 的操作。我们可以以类似的方式修 
改插入步骤，尽管其细节是有些技巧的。 

算法 C (平衡树按位置插入）给定表示成一株平衡二叉树的线性表，并给定々 
和指向一个新节点的指针 Q , 本算法恰在此表的第々个元素之前插入该新节点。如 
果 A = N + 1,则这个新节点恰被插入到此表的最末元素之后。 

假定二叉树是非空的并有 LLINK 、 RLINK 和 B 字段及一个表头，如算法 A 中那 

样，再加上如前所述的一个 RANK 字段。本算法仅是算法 A 的 改写； 其差别只是它使 
用和更新 RANK 字段而不是 KEY 字段。 

C 1 •[初始化]置 T — HEAD ， S — P — RLINK ( HEAD )， U — M <- 是。 

C 2 •[比较]如果 M < RANK ( P )， 则转到 C 3, 否则转到 C 4。 

C 3. [左移]置 RMK ( P )— RANK ( P ) + 1 ( 我们将插人一个新节点到 P 的左边）。 

置 R — LLINK ( P )。 如果 R = A ，则置 LLINK ( P )— Q ， 并转到 C 5。 否则如果 
B ( R ) 关0,则置 T — P ， S — R 以及 U — M 。 最后，置 P — R 并返回到 C 2。 

C 4 •[右移]置 M — M - RANK ( P ) 和 R — RL ： LNK ( P )。 如果 R = A ，则置 RLINK ( P ) —Q 

并转到 C 5。 否则如果 B ( R ) 尹0,则置 T — P ， S — R 以及 U — M 。 最后，置 P—R 
并返回 C 2。 

C 5 .[插人]置 RANK ( R ) —1， LLINK ( Q )— RLINK ( Q )— A ， B ( Q )— 0。 

C 6 •[调整平衡因子]置 M — U 。 （这恢复了当 P 是 S 时 M 以前 的值； 所有 RANK 

字段现在都已适当地赋值）。如果 M < RMK ( S ) ，则置 R — P — LLINK ( S ) ，而且 
a — - 1;否则置 R — P — RLINK ( S ) ， a — + 1，和 M—M - RANK ( S ) 。然后重复做 
下列操作直到 P = Q 为止 ：如果 M < RANK ( P ) ，则置 B ( P )— - 1以及 P^LLINK 
( P ) ;如果 M > RANK ( P ) ，则置 B ( P )— + 1 和 M—M - RMK ( P ) 及 P — RLINK ( P )。 

(如果 M 二 RANK ( P )， 则 P = Q 而且进到下一步）。 

C 7 •[平衡动作]现在出现若干 情况： 

i ) 如果 B ( S ) =0,则置 B ( S ) —a , LLINK ( HEAD )— LLINK ( HEAD ) + 1，并结束此 

算法 D 

ii ) 如果 B ( S )= - a ，则置 B ⑶ —0 并结束此算法。 

iii ) 如果 B ( S ) = a ，则如果 B ( R ) 二 a 即转到步骤 C 8, 如果 B ( R ) = - a 即转到 
步骤 C 9。 

C 8. [单转动]置 P ^ R , LINK(a , S )^ LINK ( - a , R ) , LINK ( - a , R ) — S ， B ( S)—B 

( R )— 0。如果 a = + 1，则置 RANK ( R )— RANK ( R )+ RANK ( S ); 如果 a = -1，则 
置 RANK ( S )— RANK ( S )- RMK ( R )。 转向 CIO 。 

C 9. [双转动]进行步骤 A 9( 算法 A ) 的所有操作。然后，如果 a = + 1，则置 

RANK ( R )— RMK ( R ) - RMK ( P )， RANK ( P )— RAM ( P ) + RANK ( S ); 如果 a = ~1, 
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则置 RANK ( P )^ RANK ( P ) + RANK ( R )， 然后 RANK ( S )— RANK ( S ) - RANK ( P )。 

CIO . [最后一步]如果 S 二 RLINK ( T ) 则置 RLINK ( T )— P ， 否则置 LLINK ( T )— P 。 

I 

* 删去、连接等 对于平衡树和维持平衡还可做许多其它事情，但这些算法都是 
十分冗长的，它们的细节已超出了本书的范围。这里我们只讨论一般的思想，有兴 
趣的读者不难自己补充其细节。 

如果采用正确的方法，则删去的问题可以在 0 (bg N ) 步内解决 [ C . C . Foster , 

“A Study of AVL Trees ” ， Goodyear Aerospace Corp . report GER - 12158 (1965 年 4 

月）]。首先，我们可以把任意节点的删去简单地归结为一个节点 P 的删去，对这个 
节点 P 来说，如同在算法 6.2.2 D 中那样， LLINK ( P ) 或 RLINK ( P ) 是 A 。 这个算法还应 

加以修改使它造一张确定到节点 P 的通路的指针表，即 

( P 0 , a 0 ) ，（尸丄，…） ，…， ( P / , a t ) (16) 

其中，尸。= HEAD , 〜=+ 1;对于< Z ， LINK( 〜， O P 出， 巧 = P ;而且 LINKC ^, 

巧）=义。当我们往下查找树时，这张表可放置在一个辅助栈上。删去节点 P 的过 

程置 LINK ( a / _ 1 , P / _ 1 )^- LINK ( - 巧 ） ，而且我们必须调整节点处的平衡因 

子，因为这个节点的^子树的高度刚刚减 少了； 应该使用下列调整 方法： 如果々= 

0,则置 LLINK ( HEAD )— LLINK ( HEAD ) - 1并结束此算法，因为整个树高度减少了。否 

则考察平衡因子 B ( h ); 有三种 情况： 

0 = 置0,々减1,并对々的新值重复此调整方法。 

ii ) B ( P k )= 0 o 置 B ( h ) 为并结束删去算法。 

iii ) B ( P k ) = ~ a ko 需要重新平衡！ 

需要重新平衡的这些情况，几乎同我们在插入算法中遇到的 一样； 再次参考（1 )， A 
是节点 h ， JB 是节点 LINK (- 込），它在与出现删去的分支相反的分支上。惟一 

的新特征是节点£可能是平 衡的； 这导致一个新的情况3,它和情况1类似，但 P 的 
高度是 /I + 1。在情况1和 2 中，如同在 (2) 中那样的重新平衡意味着减少高度 ，所以 
我们置为 （2) 的根，々减1，并对这个新的々值重新开始调整。在 

情况3中，我们做一个单转动，这就保持了 A 和 B 两者的平衡因子非0,而不改变整 
个 高度； 因此，在使 LINKUmP ^) 指向节点 B 之后，我们就结束这个算法。 

删去和插入之间的重要差别是 ：删去 可能需要多达 log iV 次转动，而插入所需 
的转动决不多于一次。如果我们试图删去一株斐波那契树最右的节点（见 6.2.1 小 
节图8)，那么，这个原因就显得很清楚了。但是经验测试表明，每次删去平均只需 
作 0.21 次转动。 

对于线性表表示使用平衡树，也提示了需要一个连 接算法 ，以便把整株树 L 2 插 
入到树 M 的右边，而不破坏平衡 。 Clark A Crane , 已经首先想出了用于连接的漂亮 

算法:假设髙度髙度 （ L 2 ); 其它情况是类似的。删去 L 2 的头一个节点，称它 
为交 界节点 J , 并令1/ 2 代表新树 L 2 \ iJ ) o 现在顺着 M 的诸右链接往下走，直到 
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到达一个节点 P ， 使得 

高度 （ P )- 高度 （1^) = 0或1 

为止； 这总是可能的，因为每往下走一级，高度就改变1或2,然后以 



来代替 © ，进而调整，就好像新节点 J 是刚由算法 A 插入的那样。 


Crane 还解决了更困难的求逆问题，把一个表 分成为 两部分，使得它们的连接还 
是原来的表。例如，考虑把图20中的表分开来得到两个表，一个含 U ， …，1丨，另一 


个含…， Qh 这需要对于诸子树作大量的重 
组工作。一般地说，当我们需要在某个给定的节 
点 P 处来分开一株树时，到 P 的通路有些像图 
25中那样。我们希望构造一株左树，它以对称 
次序包含 诸 

节点，以及一株右树，它包含 p ， P 8 ， h ， P 5 ， p 5 , 

尸3，仏，尸2，/?2。 这可以通过一系列的连接来做: 

首先在 ct 的右边插入 P ， 然后利用 P 8 作为交界 

节点连接(3和 P 8 ，利用 P 7 作为交界节点连接 a 7 

和 c ^ P ， 利用 P 6 连接％和 c ^/ VP ， 利用 P 5 连接 

PP 也和卩 5 , 等等； 在到 P 的通路上的节点 P 8 , 

P7 , …， Pi 均被用作交界节点。 Crane 已经 证明， 

当原来的树包含 iV 个节点时，这个分开算法仅花 
费 O ( logiV ) 个时间 单位； 实际的原因是利用一 
个给定的交界点的连接要花费 OU ) 步，其中々 
是正被连接的树之间的髙度差，而且必须累加起 



图25分开一个表的问题 


来的々的值实质上形成了正被构造的左树和右树两者的一个收缩的级数。 


所有这些算法都可以利用 KEY 或 RANK 字段或者两者使用，尽管在连接的情况 


T , L 2 的键码必须全都大于 M 的键码。为了通用的目的，通常可取的是使用一株 


三重链 接的树，它具有 UP 链以及 LLINK 和 RLINK, 连同一个新的一位二进位字段，这 
个字段确定一个节点是其父亲的左儿子还是右儿子。三重链接树表示稍微简化了 
这些算法，并且使我们有可能确定树中的节点而无需明确地跟踪通到该节点的通 
路;给定 P ， 我们可以写出一个子程序删去 NODE ( P )， 或者删去在对称次序下跟随 
NODE(P) 的节点或者求出包含 NODE ( P ) 的表，等等。在三重链接树的删去算法中不必 
构造表（16)，因为 UP 链为我们提供了所需要的信息。当然，当插入、删去和转动正 
被实施时，一株三重链接树要求改变稍微多的链接。使用一株三重链接树来代替一 
株双重链接树，类似于使用两路链接代替一路链接的 情形： 我们可以从任意点开始， 
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或向前进行或向后进行。以三重链接平衡树为基础的表算法的完整的描述，出现在 

Clark A Crane 的博士论文中（斯坦福大学， 1972) 。 


AVL 树的一些选择 许多组织树的其它方法已被提岀，以保证对数阶的存取 
时间。例如， C . C . Foster[CACM 16 (1973) ，513〜 517] 考虑了当我们允许子树的高 
度差至 多为々 时出现的二叉树。这样的结构可称做 HBO ] 树（意思是“高度平 
衡”），而通常的平衡树表示其特殊情况 HB [1] 。 

加权平衡树 的有趣概念，已经为 J . Nievergelt , E . Reingold 和黄泽权所研究。不 

去考虑树的高度，他们约定所有节点的子树必须满足 

乃 - 1 < 籠 < 乃 + 1 (17) 

其中，左权和右权分别累计左子树和右子树中外节点的数目。有可能证明，仅仅利 
用如算法 A 中进行重新平衡的单转动和双转动，在插入之下仍能维持权的平衡。 
(参见习题25)。然而，在一次插入期间可能需要做许多重新平衡。在增加查找时 

间的条件下，减少重新平衡的次数，有可能放松 （ n ) 的条件。 

乍一看，权平衡树似乎比以前单纯的平衡树需要更多的内存。但是事实上，它 
们有时要求反倒稍少些！对于线性表表示，如果每个节点已有一个 RANK 字段，则这 
恰巧是左权。而当我们沿树下移时，有可能记住对应的右权。然而，为了维持权平 
衡所需要的管理操作，看来要花费比算法 A 更多的时间，而每个节点省去两位二进 


数位，似乎还抵不上所增加的麻烦。 


Why don't you pair 'em up in threes ? 


为什么你不把它们配对成 


个呢 


归属于 YOGI BERRA (大约1970年) 


AVL 树的另一种有趣的选择，称做 “2-3 树”，它是由 John Hop croft 于1970年提 

出的[见 Aho，Hopcroft 和 Ullman,The Design 
and Analysis of Computer Algorithms ( Mass : 

Addison - Wesley , 1974) ，第 4 章]。这个思想要 

求在每个节点处作2路分支或3路分支，并约 
定所有外节点都出现在相同的级上。每个内 
节点包含一个或两个键码，如图26所示。 图 26 —株 2 _ 3 树 

插入到一株 2-3 树要比插入到一株平衡树易于说明 ：如果 我们要把一个新的键 
码插人到仅含一个键码的节点中，则只要简单地把它插人作为第二个键码。另一方 
面，如果这个节点已经含有两个键码，则我们就把它分为两个各有一个键码的节点， 
而把中间的键码插入到父母节点处。如果父母节点已有两个键码，这又可以引起父 
母节点以相同的方式被划分。图27示出了把一个新的键码插人到图26的 2-3 树的 



过程。 

Hopcroft 发现，正像在 AVL 树的对应操作那样，对于 2-3 树也可以相当直截了 

当的方式进行删去、连接和分开等操作。 
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图27把新键码 “ M ” 插入图26的 2-3 树中 

R . Bayer [ Proc . ACMSIGFIDET Workshop (1971)，219 〜 235] 已经提议使用 2_3 

树的一种有趣的二叉树表示。见图28,它给出图26的二叉树 表示； 在每个节点中， 
用一个二进位来区分诸“水平”的 RLINK 和诸“垂直”的 RLINK 。 注意，正如任何二分 
查找树那样，树的键码以对称方式从左到右出现。结果表明，当我们如图27那样插 
人一个新键码时，在这样一株二叉树上需要实施的转换，恰恰是把一个新键码插人 
到一株 AVL 树时所用的单转动和双转动，不过我们只需要一个单转动和一个双转 
动，而不是在算法 A 和 C 中的左右反演。 



图28图26的 2-3 树表示成一株二分査找树 

对这些思想的精心推敲已经导致许多另外风味的平衡树，最著名的有红黑树， 
也叫做对称二叉 B 树或半平衡树 [ R . Bayer，Acta Jn/ormatica 1 (1972) ，290〜306; 
L.Guibas 和 R . Sedgewick , F 0 CS 19 (1978) , 8 〜 21; H . J • 01 ivie，iMIRO Informa - 
tique Theorique 16 (1982) ， 51 〜 71; R . E . Tarjan ’ Jnf , Proc . Letters 16(1983) ,253 — 

257; T • H . Cormen ， C . E . Leiserson 以及 R . L • Rivest , Introduction to Algorithms ( 麻省 

理工学院出版社， 1990) ，第 14 章； R . Sedgewick ， A / gorit/Hns in C ( Addison - Wesley ， 
1997), §13.4]。 有一个称为歇斯底里的 B 树或 U , 6) -树的很密切关联的族。主 

要是 （2 , 4 ) -树 [ D.Maier 和 S . C . Salveter Inf . Proc . Letters 12 (1981 )，199 〜 202; 
S • Huddleston 和 K Mehlhorn，Acta Informatica 17(1982) ,157 〜 184]。 

当对一些键码的访问要比对其它键码的访问更频繁得多时，如同在 6.2.2 小 
节中最优二分查找树一样，我们要使这些重要的键码相对地靠近根。 S . W . Bent , 
D . D.Sleator 和 R . E . Tarjan , SICOhdP 14 ( 1985 ) , 545 〜 568; J . Feigenbanm 和 
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R . E . Tarjan ， BeiiS y sten7 Tech J . 62 (1983) ,3139〜3158已经提出了称为有偏向树 

的动态树，这种树使得有可能在最优的一个常数因子的范围内维持加权的平衡。然 
而，这些算法十分复杂。 

基于和 6.1 节中讨论的移向前面和转换位置的启发或探索相类似的思想，随后 
D . D.Sleator 和 R . E.Tarjan 提出了称为倾斜树的简单得多的自调整数据结构 
[JACM 32 ( 1985 ) ， 652 〜686 ] ;在此之前， B . Alien 和 I • Mnuro [/ACM 25(1978),526 
〜 535] 和 J . Bitner [ S/COMP 8(1979) ，82〜 110] 已经剖析了类似的技术。倾斜树和 
上面已经提到过的其它类型的平衡树一样，既支持插入和删去，也支持连接和分开 
操作，而且是以一种特别简单的方式进行的。而且，当对任何操作序列平摊时，已知 
为访问在一个倾斜树中的数据所需要的时间至多是对于静态最优树的访问时间的 
一个小的常数倍。 Sleator 和 Tarjan 猜测，对倾斜树总共的访问时间至多是通过无论 
什么样的二叉树算法来访问数据和动态地实施转动的最优时间的一个常数倍。 

随机化导致了一些这样的方法，它们看起来甚至比倾斜树更简单、更快。 Jean 
Vuiliemin [CACM 23 (1980) ,229 〜 239] 引进了笛卡儿树，其中每个节点有两个键码 

( x , y)o x 部分如同在二分查找树中一样是自左至右有 序的； 3 ；部分如同在 5 . 2.3 
小节的优先队列树一样是由顶向下有序的。 C . R.Aragon 和 R . G . Seidel 对这个数 
据结构起了个更有色彩的名称树堆 （ treap )。 因为它很利落地把树的概念和堆的概 
念组合在一起。精确地说，如果诸 X 和诸3；都不同，则一个树堆可以通过72个给定 
的键码对心^力） ，…， （〜，％)构造出来。得到它的一个方法是按照 y 的次序，通 

过算法 6.2.2 T 插入诸: r ; 但还有一个简单的算法，它把任何新的键码直接插入到任 
何树堆中。 Amgon 和 Seidel [FOGS 30(1989) ，540〜 546] 发现，如果诸： r 是通常的 

键码而诸^是随机选择的，则我们可以确信，树堆有一个随机二分查找树的形状^ 
特别是，具有随机3；值的一个树堆将总是相当好地平衡的，但有指数上很小的概率 
(参见习题 5.2.2-42) 0 Aragon 和 Seidel 还证明，树堆能很容易地成为有偏向的，使 
得比如说，当具有相对频率/的一个键码2同^/…相关联时，则这个键码将稳定 
地接近根而岀现，其中 U 是0 〜 1之间的一个随机数。由 D . E.Knuth 所作的同凸外 
壳的计算有关的一些实验中 [Lecture Notes in Comp . Sci . 606(1992) ,53 —55] 0 树堆 
的性能一致地比倾斜树更好些。 

本书的下一版本计划把新的 6.2.5 小节专用于讨论随机化的数据结构，它将讨 
论 “ 跳越表 ” [W • Pugh ， CACM 33(1990)，668 〜 676)] 以及“随机化的二分查找树” 

[ S.Roura C . Martinez , JACM 45(1998),288 〜 323 ] ，以及树堆。 

习题 

1 X 01 ] 在 （1) 的情况2中，为什么通过简单地交换 A 和 B 的左子树来恢复平衡并不是一种 
好的想法？ 

2 . [ 16 ] 如果我们以 B ( S ) = 0 达到步骤 A 7, 试说明为什么这株树会高出一级来。 

► 3_[ M 25] 证明 ：具有 N 个内部节点的一株平衡树决不包含多于 （#- l ) Af 〜0.61803 iV 个其 
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平衡因子非0的节点。 

4.[ M 22] 证明或 否定： 在具有心 + 1 - 1个内部节点的所有平衡树当中，阶数为 A 的斐波那 
契树有最大的内部路径长度。 

► 5.[ M 25] 证明或 否定： 如果使用算法 A 以递增次序逐次地插人链 K 2 ，…， K n 到开始时仅 

含单个键码 Ki 的一株树中，其中心<尺 2 < … ，则所产生的树总是最优的（即在所有 N 节 
点的二叉树中，它有极小内部路径长度）。 

6.1 M 21] 证明等式 （5) 定义了高度为/!的平衡树的生成函数。 

7. [ M 27] ( NJ . A . Sbane 和 A . V . Aho ) 证明高度为 /i 的平衡树个数的著名公式 （9) 。[提 

示：设 C n ^ B n + { ，且利用如下事实，即对于很大的 ； z ， log ( C n + X \ C \ ) 非常小。] 

8 . [ M 24 ] ( L . A . Knizder ) 证明存在一个常数 0， 使得当 A — ⑺时，％ ( 1 )/成 （ 1 ) 二 2% - 1 + 

0(2 h H 

9. [ HM 44] 具有 n 个内节点的平衡二叉树的近似株数等于多少？近似平均高度 

等于多少？ 

► 10. [27] ( R . C . Richards ) 证明，一个平衡树的形状可以由它的平衡因子表 B (1) B (2)〜 
B (/ V ) 以对称次序惟一地构造出来。 

► ll .[ M 24] (Mark R . Brown ) 证明当 n >6 时，在由算法 A 构造的 rz 个内节点的一株随机平 

衡树中，其类型为 + A 、- A 、+ + B 、+ - B 、- + B 、- - B 等的任何一种的外节点的平均个数恰为 （„ 
+ 1)/14。 

► 12. [24] 当把八个节点插人到一株平衡树中时，程序 A 可能的极大运行时间是多少？对于 
这个插人，可能的极小运行时间是多少？ 

13. [05] 为什么比较好的办法是如正文中定义的那样使用 RANK 字段，而不是简单地存储每 
个节点的下标作为它的键码（称第一个节点 “1”， 第二个节点 “2”， 等等）？ 

14. [ H ] 能否修改算法 6.2.2 T 和 6.2.2 D 使它们对线性表也适用，使用一个 rank 字段，就如 
同对本小节的平衡树算法所进行的修改那样。 

15. [ IS ] ( C . A . Crane ) 假设一个有序线性表被表示为一株二叉树，且在每个节点处有 KEY 

和 RANK 字段。试设计一个算法，它在树上查找一个给定的键码 K ， 并确定 K 在表中的 位置； 即，它 
求得数 m ， 使得 K 是第 m 个最小的键码。 、 

► 16-[20] 利用正文中的删去算法，在从图20中同时删去节点 E 和根节点 F 之后，便得到一株 
平衡树。试画出这株树。 

►17.[21 ] 利用正文中建议的连接算法，把斐波那契树 （12) 连接到图20中树 （ a ) 右边， （ b ) 左边 
之后，便得到两株平衡树。试画出这两株树。 

18. [22] 利用正文中所建议的分开算法，把图20分成两部分 U ，".， 工1和 U ， …， Qj 之后便得 
到两株平衡树。试画出这两株树。 

► 19.[26]找出一个方法，转换一株给定的平衡树，使得在根处的平衡因子不是 -1。 你的转换 

应该保持节点的对称 次序； 而且不管原有树的大小如何，它都应该在 0(1) 的时间单位中产生另一 
株平衡树。 

20.[40] 剖析利用有限制的一类平衡树的思想，这些树的节点的平衡因子限于是0或十1。 
(于是 B 字段的长度可减小到一个二进数位）。对于这样的树是否有一个相当有效的插人 过程？ 
^21.[30] (完全平衡） 试设计一个算法，它构造习题5的意义下是最优的 JV 个节点的二叉 
树。你的算法应该使用 O ( iV ) 步而且是“联机的”，即是说，它逐个地以递增的次序输人节点，并随 
即构造部分树，而不必预先知道； V 的最后的值。（当重新构造一株失去平衡的树时，或者当合并 
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两株树的键码成为一株树时，使用这样一个算法是适当的。） 

22. [ M 20] 对于加权平衡树，类似于定理 A 的结果是什么？ 

23. [ M 20] ( E . Reingold ) 证明高度平衡树与加权平衡树之间没有简单的关系。 （ a ) 证明在 

(17) 的意义下存在（左权 )/( 右权）为任意小比值的加权平衡树。 （ b ) 证明存在其左子树和右子树 
的髙度差为任意大的加权平衡树。 , 

24. [ M 22] ( E . Reingold ) 证明，如果我们把条件 （17) 增强到 

~2 < ^U <Z 

则满足这一条件的仅有的二叉树是具有2” - 1个内节点的完全平衡树（在这样的树中，左权和右 
权在所有节点处都完全相等）。 

25. [27] ( J . Ni e v erge lt ， E . R e ingdd ， 黄泽权）证明有可能设计加权平衡树的插入算法，使得 
条件 （17) 成立，并且使得每个插入至多进行 0 (log A 0 次转动。 

26. [40] 试剖析对于 i >2 的平衡£叉树的性成。 

► 27.[ M 23] 试估计在有 N 个内节点的 2-3 树中进行査找所需要的极大比较次数。 

28. [41] 编制 2-3 树算法的有效实现方案。 

29. [ M 47] 试分析在随机插人下 ,2-3 树的平均特性。 

30. [26] ( E . McCreight ) 2. 5节讨论了动态存储分配的若干策略，包括“最好的适合”（从满 
足要求的所有那些区域当中选择尽可能小的可利用区域）和“第一个适合”（在所有满足要求的那 
些区域当中选择具有最小地址的可利用区域）。证明，如果以一种适当的方式把可利用空间链接 
在一起成为一株平衡树，则有可能只需要 0 (log 72) 个时间单位来进行 （ a ) 最好的适合和 （ b ) 第一 
个适合的分配，其中《是可利用区域数（在 2.5 节中给出的算法，花费阶为 n 步）。 

31. [34] ( M . L.Fredman 1975) 试想出具有如下性质的线性列表的一个表示——给定 
在位置 m - 1 和 w 之间插入一个新节点花费 0 (log m ) 个时间单位。 

32. [ M 27] 给定两个„节点的二叉树 了和： T , 如果通过一序列的0次或多次向右的转动，由 
丁可得到： T , 就说 T < r 。 证明当且仅当对于1<々<71山<匕，其中 q 和心表 示在对 
称次序下 了和： r 的第 々个 节点的右子树分别的大小。 


► 33.[25] ( A . L . Buchsbaum ) 说明怎样含蓄地对一个 AVL 树的平衡因子进行编码，这样当 
对此树进行访问时，以增加工作量为代价，每个节点节省两个二进位。 

Samuel considered the nation of Israel 9 tribe by tribe ， 

and the tribe of Benjamin was picked by lot. 

Then he considered the tribe of Benjamin , family by family ， 

and the family of Matri was picked by lot. 

Then he considered the family of Matri, man by man f 

and Saul son of Kish was picked by lot. 

But when they looked for Saul he could not be found. 


塞缪尔按部落一个 


个地考虑以色列的民族，并且抽签选中了本杰明的部落。 


然后他按家族一个一个地考察本杰明的部落，并且抽签选中马特里的家族。 


然后他按人 


个一个地考虑马特里的家族，并且抽签选中基斯的儿子索尔。 

但当他们寻找索尔时，却找不到他。 

——1 Samuel 10-20—21 


參 
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6.2.4 多路树 


我们一直在讨论的树查找方法主要用于内部査找，即所要考察的表是完全包含 
在计算机高速内存中的。下面我们考虑，当从一个非常大的文件中查找信息时进行 
外部查找的问题。这些非常大的文件，出现在直接存取存储装置，例如磁盘或磁鼓 
上 （5.4. 9小节有关于磁盘和磁鼓的介绍）。 

如果我们选择一种适当的方法来表示树，那么树结构本身很适合于外部查找。 
考虑图29中所示的大型二分查找树，并想像它已经存在一个磁盘文件中（树的 
LLINK 和 RLINK 现在是磁盘地址而不是内存地址）。如果我们以一个朴实的方式查 
找这株树，简单地应用对内部树查找已经学过的算法，则大约要做 IgN 次磁盘访问， 
才能完成查找。当 iV 是100万时，这意味着我们需要做20次左右的寻找。但假如 
把这个表分成许多7个节点的“页”，如图29中虚线 所示； 如果我们一次访问一页， 
则仅需要前述次数的三分之一，所以査找大约快三倍。 



图29 —株大型二分査找树可以分成许多“页” 

以这一方式把节点组合成页，实际上把一株二叉树变成了八叉树，在每个页节 
点处有8路分支。如果我们让页更大一些，在每次磁盘访问之后有128路分支，则 
在仅仅寻找三页之后，我们就可以在一个百万键码的表中找出任何所希望的键码。 
根页可以常驻内存，因此只需对磁盘进行两次访问，而且在任一时刻，内存中的键码 
数都不超过254个。 

当然我们不要使页任意大，因为，内存的大小有限，并且它需花费更长的时间来 
读入一个更大的页。例如，假设它花费 72.5 + 0.05 mms 来读允许 m 路分支的一个 
页，每页的内部处理时间约为 a + 61 g 其中 a 相对 72.5 ms 来说是很小的，因此， 

为查找一个大表所需要的时间总量近似地正比于 lg N 乘以 

(72. 5 + 0 .05 m)/lg m 七 b 

当772^307时，这个量实现极 小值； 实际上，极小值是非常“广”的， 200〜500 之 
间的所有 m 都接近于达到一个最优值。实践中，根据具体外部存储设备的特征，以 
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图30阶为7的一株 B 树，所有叶都在第3级上。每个节点包含3,4,5或 

6个键码。在键码449之前的叶已标记了 A ; 参见 （8) 
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及表中记录的长度，将有一个类似的好的 m 值范围。 

W . I . Landauer [ ffi £：£：. Trans . EC -12(1963), 863 〜 871] 提议，在构造一株 m 叉 

树时，首先要使第/级接近充满，然后才能往第 Z + 1 级上放东西。这个方案需要一 

个相当复杂的转动方法，因为可能需要对整株树作重大的改变才能插入一个新的项 

目 iLandauer 假设，我们需要比插入或删去项目更为经常得多地查找树中的项目。 

当一个文件存在磁盘上，且插入或删去不多时，则一株三极树是适当的。其中 

分支的第一级确定使用什么柱面，分支的第二级确定在该柱面上的适当的磁道，第 

三级包含记录本身。这个方法称 为索引顺序文 件组织[参见 7/46 M 16(1969),569 
〜571]。 

R . Muntz 和 R . Uzgalis [Proc. Princeton Coni, on Inf. Sciences and Systems 4 

(1970) ,345 〜 349] 已经提议修改树查找和插入方法，即算法 6.2.2 T , 使得只要可 
能，就让所有插入都对那些与其父亲节点属于相同页的节点 进行； 如果该页已满，则 
只要可能，就开始一个新的页。如果页数无限，且如果数据以随机的次序到达，则可 
以证明，平均页存取次数近似为 H N /( H m - l )， 仅比我们在最好的 m 叉树中所得到 

的稍微多一点（见习题18)。 

B 树1970 年 R • Bay ex ■和 E . McCreight 已经发现了借助多路树分支研究外部 
查找的一个新方法 [Acta Informatics 1 ( 1972)，173 〜 189]，而且大约在同一时间 
M.Kaufman 也独立地发现了同一方法[未发表]。他们的思想，是以一类称为 B 树 
的多方面适用的新型数据结构为基础的，它使得在最坏的情况下，仍有可能利用比 
较简单的算法，以“有保证的”效率来查找和更新一个大型文件。 

阶 m 的一株 B 树，是满足下列性质的一 株树： 

0每个节点至多有 m 个儿子。 

ii ) 除了根和叶之外，每个节点的儿子个数至少是 m /2。 

iii ) 根至少有两个儿子（除非它是一片叶）。 

iv ) 所有叶都出现在同一级上，而且不带信息。 

v ) 具有& 个儿子的非叶节点含有 A - 1个键码。 

(通常 ，一 片“叶”是一个终端节点，它没有儿子。因为叶不带有信息，故我们可 
以把它们看做实际上不在树内的外部节点，因而 A 是指向一片叶的指针。） 

图30示出阶7的一株 B 树，每个节点(除根和叶外)都有介于「7/21和7之间的儿子， 
所以它包含3、4、5或6个键码。允许根节点包含1 〜6 个 键码; 在现在情况下，它有2个 
键码。所有的叶都在级3上。注意, ( a ) 键码从左到右以递增的次序出现,这是对称次序 
概念的一种自然的 推广; ( b ) 叶的片数恰比键码的个数大1。 

显然，我们对阶1或2的 B 树没有兴趣，所以仅仅考虑 m >3 的情形。在接近 
6.2.3 小节末尾处定义的 2-3 树等价于阶3的 J 3 树。 （ Bayei ■和 McCreight 仅考虑 
m 是奇数的情况。有些作者把阶为 m 的 B 树当作我们所说的阶 2 m + 1的 B 树）。 

包含7个键码和7 + 1个指针的一个节点可以表示作 
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其中 + 且巧指向包含 iC z . 和 iC z + 1 之间的键码的子树。因此在一株 

B 树中的查找十分直截 了当： 在节点 （1) 已经进入内存之后，在键码 K l 9 K 29 -, K J 

当中查找给定的变元（当7很大时，大概作一个二分 查找； 但当7很小时，顺序查找 
是最好的）。如果査找成功，则我们已经找到了所希望的 键码； 但如果由于变元位于 
K { 和 K l + 1 之间而使査找不成功，则取由 R 指出的节点，并继续这个过程。如果变 

元小于，则使用指针 P G ，如果变元大于&，则使用 P ,。 如果 P 2 = A ， 则查找是不成 

功的。 

B 树的优点是插入也十分简单。例如，考虑图30,每片叶对应一个新的插入可 
能发生的位置。如果我们要插入新的键码337,则只需把适当的节点从 






]□ 


变成 


o—c^ m 



nn □门门门 


( 2 ) 


另一方面，如果我们要插入新的键码071,就没有空间了，因为在级2上的对应节点 

已经“满”了。这种情况可以通过把节点分成两部分来处理，每部分有三个键码，并 
把中间的键码送到级1 上： 


■ ■ ■ g 




o\ ^ cti 


r 


nr 


变成 



(3) 


一般说来，如果我们要把一新项目插入到阶为 m 的 B 树中去，当所有叶都在级 
I 上时，则把新的键码插入到级 Z -1 的适当的节点上。如果该节点现在含 77 Z 个键 
码，使得它有形式(1)，且 ； = m ， 则把它分成两个节点 


P 


P ； 



P 。 ’^"l ， Pl，...， 《「//! /2"] — 1 ， P 「 m/2] — 1 





P 「m fV[ i ^ r 「 /n/2l+l ， Pfm/2l+l，. ，P 





并且把键码 K 「 m /21 插入到原来节点的父节点处。（于是，父节点中的指针 P 为序 
列 P ， K 「 m /2 l ， P 所代替）。这个插入可能引起父节点包含 m 个键码，而且如果这样， 

则它应以同样的方式分裂（上一小节的图27画出了 m = 3的情况）。如果我们需要 
分裂根节点，根节点是没有父节点的，则只需建立包含单个键码 K u/21 的一个新根 
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节点即可，在这种情况下这株树长高了一级。 

这个插入步骤几乎保持 B 树的所有 性质； 为了鉴赏这一思想的巧妙性，读者应 
该作习题1。注意，这株树实质上从顶部增长，而不是从底部，因为仅当根分裂时它 
的高度才增加。 

从 B 树删去，仅仅比插人稍稍复杂一点而已（见习题6)。 

关于性能的上限 现在让我们看看，当对阶为 77 Z 的一株 B 树进行查找时，在最 
坏的情况下，要访问多少节点。假设有 iV 个键码，且 N + 1 片叶出现在 Z 级上，则在 
级1，2,3,…上的节点数至少是 2,2「 tW 21,2「 w /21 2 ，…； 因此 

N + 1 >2 r mil ' 1 - 1 (5) 

换句话说， 


Z < 1 + log 「 m / 2i 


m 


⑹ 


这意味着，例如，如果 N = 1.999,998 且 m = 199,则 Z 至多为3。由于我们在一次 
查找期间至多存取 Z 个节点，故这个公式保证了运行时间十分小。 

当插人一个新的键码时，可能需要分裂多达 Z 个节点。然而，需要分裂的节点 
的平均数要小得多。因为在整株树被构造时出现的分裂总数，恰好是树中内部节点 

总数减 Z 。 如果有 f 个内节点，则至少有1 +(「爪/21-1)(/)-1)个 键码； 因此 


p < 1 + 


N - 1 

: m/2~\~ 1 


(7) 


由此得出，在构造一株 iV 个键码的树时，每作一次插入，我们需要分裂一个节点的 
次数，平均少于 l /(「 m /2 l _ l )。 

改进和变形 只要稍微突破常规，就有若干方法改进上面定义的基本 B 树结 
构。 

首先，我们注意到，在 Z - 1级节点中所有指针都是 A ， 而其它级中的指针皆非 
八。这通常表示大量空间的浪费，所以，我们可以通过消去所有的 A 和对所有“底” 
节点使用一个不同的 m 值以节省时间和空间。使用两个不同的 m 并不搅乱插人 
算法，因为被分裂的那个节点的两半，保留在和原来节点相同的级上。事实上我们 
可通过要求在/ _ A 级上的所有非根节点，都有77^/2到个儿子，来定义阶为 

^^，^^/^，…的一株广义石 树； 这样一株 B 树在每级上都有不同的 772 , 而插人算 

法实质上仍和从前一样有效。 

为进一步贯彻上一段中的这个思想，我们可以在树的每一级上，使用一个完全 
不同的节点格式，而且我们也可以在叶中存储信息3有时，键码仅构成一个文件中 
记录的很小部分，在这样的情况下，在靠近树根的分支节点处保存整个记录，乃是一 
个 错误; 这会使 m 对于有效的多路分支来说太小了。 

我们因此可以重新考虑图30,同时想像文件的所有记录现在都存在叶中，而且 
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只有少量的键码被拷贝在分支节点中。在这种解释之下，最左的叶包含其键码< 
011的所有的 记录; 标志为 A 的叶包含其键码满足 

439 < K < 449 (8) 

的所有 记录； 等等。在这种解释之下，叶节点的增长和分裂就如同分支节点那样，只 
是一个记录决不会从一片叶传到下一级去。于是，诸叶的容量至少总是填得半满 
的。每当一片叶分裂时 ，一 个新的键码便进入树的非叶部分。如果每片叶链接到它 
在对称次序下的后继，则我们就获得了以有效和方便的方式、既是顺序地、又是随机 
地来遍历文件的能力。这个变形已经作为一个 B + 树而闻名。 

S . P.Ghosh 和 M . E . SenkoL/ACM 16 (1969) ，569〜 579] 的某些计算提示，把叶 

做得相当大，比如说大到大约10个连续的页那样长，可能是一个好的想法。通过对 
每片叶在已知的键码范围内的线性内插，我们可以猜测哪10个叶大概包含一个给 
定的查找变元。如果猜测是错误的，就损失了时间，但是经验指出，这个损失比我们 
通过减少树的大小所节省的时间要少。 

T . H . Martin [未发表]指出，奠定 B 树的基础的思想，也可以用 于可变长的键 
码。我们不必对每个节点的儿子设置 [ m /2, m ] 的界限，代替的是，我们可以只是说 
每个节点中应该至少有半满的 数据; 尽管每个节点中键码的确切数目依赖于键码的 
长短，插入和分开的机制仍然工作得很好。然而，不应该允许键码过长，否则它们可 
能会把事情弄槽(见习题5)。 

对于基本 B 树方案的另一个重要的修改是 Bayer 和 McCreight 提出的 溢出思 
想。这个思想尽可能避免频繁地分裂节点，而代之以使用一个局部转动，来改进插 

入算法。假设有一个节点，它由于包含 77Z 个键码和 777 + 1个指针而过 满了； 我们不 

去分裂它，而是首先在右边考察它的兄 f 节点，这个兄弟节点比如说有 j 个键码和_； 
+ 1个指针。在父节点中，有一个键码它按下图分开这两个兄弟的键码 


(9) 


如果 j / m - l , 则一个简单的重新排列就使分裂成为不必要 P 了：我 们在左节点中 
保留 L ( ttz +7)/2」个键码，在父节点中以 K U 7 W + w /2 」 + 1 来代替并把剩下的 「（m + 

jO /21 个键码(包括&在内）以及对应的指针放置到右节点中。于是这个满了的节 

点就“流动”到它的兄弟节点处。另一方面，如果兄弟节点已经满了 0 = 771 -1)，则 

我们可以把这两个节点都分裂为三个节点，且其中每个约装满三分之二，分别包含 
L (2 m - 2)/3」、 L (2 m - 1)/3」以及 l _2 m /3」 个键码： 
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…/ K l(2m + \)/3] 

尺 L(m _l )/3 j 乂 … 

V p " ， 




尤； 

■•) C 

1 

A W 

J! W. 





( 10 ) 


如果原来的节点没有右兄弟，则我们实际上可以同样的方式考虑它的左兄弟。（如 
果原来的节点既有右兄弟又有左兄弟，则我们甚至可以不分裂出一个新节点，除非 
左兄弟和右兄弟 两者全 都是满的）。最后，如果有待分裂的原来的节点全然没有兄 
弟，则它必然 是根； 我们可以改变 B 树的定义，允许根包含 2 L (2 m -2)/3」那么多个 
键码，使得当根分裂时，产生每个有 L (2 m - 2)/3」个键码的两个节点。 

上一段中所有技术的效果是产生一类优良的树，比如说，阶为 m 的一株树， 
可以定义 如下： 

i ) 除了根以外每个节点至多有 m 个儿子。 

ii ) 每个节点，除了根和叶以外，至少有 (2 m -1)/3 个儿子。 

iii ) 根至少有两个和至多有 2\_(2 m — 2)/3 J + 1个儿子。 

iv ) 所有的叶都出现在同一级上。 

v ) 具有 A 个儿子的一个非叶节点，包含 A - 1个键码。 

重要的改动是条件 ( ii )， 它断言，我们至少利用了每个节点中三分之二的可用空间。 
这个改动不仅更有效地使用了空间，而且也使查找过程加快，因为在 （6) 和 （7) 中我 
们可以用「(2772-1)/31代替「7^/21。然而插入过程就变慢了，因为随着节点变满它 
们要更加 注意; 关于个中涉及的折衷的分析，请参见张斌和许玖君 ， Acta Mormatica 

26 (1989),421 〜438。 

就另一个极端而言，在一株频繁变动的树中使诸节点变成少于半满则更好，特 
别是如果插人的次数趋向于超过删去的次数时。这种情况已经由 T.Johnson 和 
D.Shasha 在 J . Comput . Syst Sci 47 (1993) ，45〜76上做了分析。 

由于在 B 树中根的次数可以低到2,也许读者已经发生怀 疑了： 为什么我们要 
花费整整一次磁盘访问于仅仅一个 2 -路判定上呢 ？！ 一个简单的缓冲方案，即所谓 
最近最少使用的页替换 ，可以消除这种反对 意见； 我们可以在内存中保持若干个缓 
冲区的信息负载,使得当对应的叶已经出现时可以避免输人命令。在这个方案中， 
查找或插入算法发出“虚拟的读”命令，仅当必要的叶不在内存中时，它才被翻译成 
真正的输人 指令； 当这缓冲区已经被读过而且可能已被算法所修改时，即发岀随继 
的“释放”命令。当需要一个真正的读人时，便选择最早释放的缓 冲区； 如果该缓冲 
区的内容在它们被读入以后发生了变化，则我们写出该缓冲区，然后就把所希望的 
页读入到这个选定的缓冲区中。 

由于树中的级数相对于缓冲区数来说一般都较小，这个分页的方案将确保根页 
总在内 存中； 而且如果根只有2个或3个儿子，则第一级的页面几乎肯定地也将驻 
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留于内存中。在一次插人期间，任何可能需要被分开的页，都可以在需要时自动地 
出现在内存中，因为从紧挨的此前的查找会把它们记住。 

E . McCreight 的某些经验表明，这个思想是十分成功的。例如，他发现，对于10 
个缓冲区和 m = 121，以递增次序插人100,000个键码的过程仅需要22条实际的读 
命令和857条实际的写 命令； 于是，大多数活动都在内存中进行。而且这株树仅仅 
包含835个节点，只比极小可能的值「 100000/( m - 1)1 = 834大1;因此存储利用接 
近100%。对于这个实验，他使用了溢出技术，但如同 （4) 中那样仅通过2-路节点分 
裂，而不是像在 （10) 中那样的3-路分裂（见习题3)。 

在另一个实验中，再次通过10个缓冲区和 m = 121以及溢出技术，他以 随机次 
序把5000个键码插人到初始为空的一株树中。在作了 2762个实际的读和2739个 
实际的写之后，便产生了具有48个节点的一株2级树（87%的存储利用）。随后的 
1000个随机查找需要786个实际的读。在作了 2743个实际的读和2800个实际的 
写之后 ，没有 溢出特征的同样实验，产生了具有62个节点的一株2级树（67%的存 
储利 用）； 1000个相继的随机查找需要836次实际的读。这不仅表明分页方案是有 
效的，而且表明在判定分裂一个节点之前，局部地处理溢出是明智的。 

姚期智已经证明，对于很大的/ V 和 m ， 在没有溢出特征的随机插人之后的平均 
节点数将是 NKmln 2) + O ( N / m 2 ) ，所以存储利用将近似为 In 2^69. 3 %[Acta 
hi formatica , 9 (1978) ， 159 〜 170] 。 也请参见 B • Eisenbarth、N • ZivianUG . H . Gonnet 、 
K . Mehlhorn , 以及 D . W ood Jnformation and Control 55(1982) , 125 〜 174 ;R . A . Baeza 
-Yates y Act 3 Informatics 26( 1989) ,439 〜 471 所做的更详细的分析。 

在 B 树被发明之后，它们很快就流行起来。例如，参见 Douglas Comer 在 
Computing Surveys 11(1979) ，121 〜 138,412上的文章，它讨论了早期的发展并且描 
述了由 IBM 公司开发的称为 VSAM ( Virtual Storage Access Method , 虚拟存储访问 
方法）的一个广泛使用的系统。 VSAM 的创新之一是复制块区到磁盘磁道上以极小 
化等待时间。 

不幸的是，对基本 B 树策略的两个最有兴趣的发展赋予了两个几乎相同的名 
字 “ SB - 树”和 “ SB - 树”。 P . E . O , Neil [ Acta 脱 29 ( 1992) ，241 〜265 ] 被设计来通过 

对邻近的记录分配相同的道或圆柱面，从而在需要同时访问许多连续的记录的应用 
中维持有效性，来极小化磁磁盘的输入/输出 时间； 在这种情况下 “ SB ” 以斜体表示而 

其中的 S 表示“顺序”。而由 P . Ferragina 和 R . Grossi 提出的 SB - 树 [STOC 27 

(1995),693-702 ；SODA 7( 19%) ,373 〜 382] 是 B 树结构同我们将在 6.3 节中讨论 
的 Patricia 树的一个优美组合。在这种情况下 “ SB ” 是以罗马体表示而其中的 S 表 

示“串”。 SB - 树对于大型文本处理有许多应用，而且它们提供了在磁盘上对可变长 
的串的有效排序的基础[参见 Arge ， F e iragin a ， G r o SS i 和 Vitter,STOC 29(1997),540 
〜 548] 0 
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习题 

1. [10]在把键码613插入到图30中之后，得到什么样的阶为7的 B 树？（请勿用“溢出”技 
术 

2. [15] 做习题1，但使用溢出技术和如同 （10) 中那样的3路分裂。 

► 3.[23] 假如我们以递增的次序把键码1，2,3,…插入到初始为空的阶为101的 B 树中， 

( a ) 当不使用溢 出时； 

( b ) 当使用溢出并且如 （4) 那样的仅仅2路的分 裂时； 

( c ) 当使用一株阶为101的树、溢出以及如同 （10) 中的3路分裂时，问哪一个键码首先引 
起诸叶出现在级4上？ 

4*[2 J ] (Bayer McCreight ) 说明，如何处理对一株广义的 B 树的插入，使得除根和叶之外的 

所有节点都保证至少有 - 士个儿子。 

► 5. [21] 假设某个节点表示1000个字符的外存位置。如果每个指针占用5个字符，且键码是 
可变长的，其长度在5 〜 50个字符之间，但总是5的倍数，则在一次插入期间，分裂一个节点之后, 
该节点中至少有多少字符位置被占用？（只考虑类似于正文中对固定长的 S 树所述的那种简单 
的分裂过程，而不使用“溢 出”； 上移使剩下的两部分最接近相等的键码。） 

6. [23] 试设计 B 树的一个删去算法。 

7. [25] 试设计 B 树的一个连接算法（参见 6.2.3 小节）。 

► 8. [ HM 37 ] 考虑 Muntz 和 Uzgalis 所建议的树插入的推广，其中每页可保持 M 个键码。在把 
N 个随机项目插入到这样一株树中，使得它有 M +1 个外节点之后，设6冗是具有如下性质的一 

次不成功査找的概率，该査找需要 A 次页访问，并结束于一个外节点，该节点的父节点属于一个 

包含 j 个键码的页，如果 B ( ^( z ) = Zd ( ^ z k 是对应的生成函数，试证明，我们有 B [ j ) ( z ) = 8 八 z ， 
而且 

BW ( z ) = N N J + \ l B ^ U ( z ) + 对于1< ; < M 

d (0 / \ _ N 〜 2 / \ 2 z p ( m ) / \ 

\ z ) ^ ]V + 1 ^ z + N + 1 ^ N_1 ^ z ^ 
p ( M )/ X _ N - 1 ( M ) / X M +1 n ( M - l ) / X 

hjv ( 之 ） _ N + - l( z ) + N + 1 B ( z ) 

试求每次不成功査找的平均页访问次数 (1) 的渐近特性。[提 示：借 助矩阵 

0 2 z 、 

0 0 

0 0 

■ • 

■ 4 

1 « 

0 0 … —M — 1 0 

、0 0 … M + 1 - 2. 

来表达这个递推式，并把 C " N 同 W ( l ) 中的 N 次多项式联系起来。] 

9-[22] B 树的思想能否用来通过位置而不是通过键码值来査找一个线性表的项？（参见算 
法 6.2.3 B )。 


W(z) 


- 3 


0 




3 - 4 


蠡《鑿 


0 


4 
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10.[35] 试讨论如何能把组织成一个 B 树的大型文件以下列这样一种方式，为大量同时的 
用户用作并发访问和修改，使不同页的用户彼此很少相干扰。 

Little is known , even for otherwise equivalent algorithms f 

about the optimization of storage allocation , 

minimization of the number of required operations f 

and so on . This area of investigation 

must draw upon the most powerful resources 

of both pure and applied mathematics 

for further progress . 

关于存储分配的优化，关于所需要的操作个数的极小化，等等, 
撇开这些即使是对于就等价的算法，我们知之甚少。为了取得更大进步, 

这个研究领域必须投入纯数学和应用数学两方面最强有力的资源。 

—ANTHONY G . OETTINGER (1961) 

6.3 数字查找 

代替把一个査找方法建立在键码之间比较的基础上，我们可以利用它们的数字 
序列或字母字符序列的表示。例如，考虑一部大型字典中的“书边标 目”； 由一个给 
定的字的第一个字母，我们可以立即定出包含所有以该字母开始的字的那些页的位 
置。 

如果我们推广书边标目的思想，则它的逻辑结论之一就是如表1所说明的以重 
复“下标”为基础的一个査找方案。假设我们要检测一个给定的查找变元，看它是否 
是英语中最普通的31个字之一（参见 6.2.2 小节中的图12和 13) ，这个数据在表1 
中被表示成所谓的 “ trie ” （检索）结构，这个名称是由 E . Fredkin [CACM 3 (1960), 
490 〜 500] 提议的，因为它是信息检索 （ re @ eval ) 的 一 部分。 一 个检索结构实际上是 
一株 M 叉树，它的节点是 M 维向量，其 f 量对应于数字或字符，第 Z 级上的每个节 
点表示所有这样的键码的集合，它们以 Z 个字符的某个序列开始，这个序列称做键 
码的 前缀; 这个节点根据第 Z + 1 个字符确定一个 M 路分支。 

例如，表1的检索结构有12个 节点； 节点 （1) 是根，我们在这里查找头一个字 
符。如果第一个字符是 N , 则这张表告诉我们，我们的字必然是 NOT (否则它不在表 
中）。另一方面，如果第一个字母是 W , 则节点 （1) 告诉我们转到节点 (9); 以同一方式 
査找第二个字母，节点 (9) 指出第二个字母应该是 A 、 H 或 I 。节点 （10) 的前缀是 HA 。 

空白条款代表空的链接。 

表1中节点向量是按照 MIX 字符编码重新排列过的。这意味着一个检索结构 
的査找将是十分快的，因为我们仅仅通过使用我们的键码的字符作为下标，来取出 
一个阵列中 的字。 通过下标进行快速多路判断的技术，称为“检表” （Table Look - 

At ) ， 以示区别于“查表” ( Table Look-Up )[ 见 P • M • Sherman , CACM 4( 1961 ),172 - 
173,175]。 
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HE 
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Dan 









BUT 


IHI 


\^m 


IH1 
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IIHI 

HAVE 
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YOU 


BY 























算法 T (检索结构查找） 给定一个形成 M 叉检索结构的记录表，本算法查找 
一 个给定的变元 K 。 这个检索结构的节点，都是其下标从0变到 M -1 的 向量； 这 
些向量的每一分量或者是一个键码或者是一个链接（可能是空的 h 

T1. [初始化]置链接变量 P ， 使得它指向检索结构的根。 

T2. [分支]置6 为输入变元 K 的从左到右的下一个字符（如果这个变元已经 

完全扫描过了，则置々为一个“空白”或字结束符号。字符应该表示为在范 
围 0<6< M 中的数）。设 X 为 NODE ( P ) 中编号为々的表项目。如果 X " 是 
一个链接，则转到 T 3; 但如果 X 是一个键码，则转到 T 4。 

T3 •[前进]如果 X 参 A ， 则置 P — X 并返回步骤 T 2; 否则算法以失败告终。 

T4 .[比较]如果 X = K ， 则算法成功地结束，否则它以失败告终。 ■ 

注意，如果这个查找是不成功的，则已经找到了 最长的 匹配。这个性质在应用 
上有时是有用的。 

为了比较这个算法和这一章中其它算法的速度，我们可以写出一个短的 MIX 程 
序，同时假定字符都是字节而且键码的长度至多是五个字节。 


表 1 31 个最普遍的英文字的一个检索结构 

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) 


UAB CDEFG HIAJKLMNOPQRInsTUVW XYZ 
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程序 T (检索 结构的查找） 这个程序假定所有键码都表示成一个 MIX 字，当键 
码少于五个字符时，空白字符在右边。由于我们使用 MIX 字符代码，因此假定查找 
变元的每个字节都包含小于30的一个数。链接被表示作一个节点字的0:2字段中 

的一个负数。 rll 三 P ， rX 三 K 的未扫描部分。 


01 

START 

LDX 

02 


ENT1 

03 

2H 

SLAX 

04 


STA 

05 


ENT2 

06 


LD1N 

07 


JIP 

08 


LDA 

09 


CMPA 

10 


JE 

11 

FAILURE 

EQU 


K 

ROOT 

1 

* + 1 ( 2 : 2 ) 
0,1 

0,2(0：2) 

2B 

0,2 

K 

SUCCESS 


1 TL 初始化 

1 P — 指向检索结构的根的指针 

C T 2 . 分支 
C 摘出下一个字符々 

C Q—P + 走 
C P—LINK(Q) 

C T 3. 前进。 如果 P 是一个#八 

的链接则转到 T2 

1 T 4. 比较 。 rA—KEY(Q) 

1 

1 如果 rA = K , 则成功地转出 

如果不在检索结构中则转出_ 


这个程序的运行时间是 8 C + 8 个单位，其中 C 是考察的字符数。由于 C <5, 故这 
个查找决不花费多于48个时间单位。 

如果我们现在要比较这个程序（使用表1的检索结构）同程序 6.2.2 T (使用图 
13的最优二分查找树）的效率，则可以作如下的观察。 

1. 检索结构花费更多得多的内存 空间； 仅仅为了表示31个键码，我们就使用 
了 360个字，而二分查找树只使用62个内存字。（然而，习题4表明，通过省去某些 
无用的位置，实际上可以把表1的检索结构放在仅仅49个字中。） 

2. 对两个程序来说，每次成功的查找都花费26个时间单位。但是一次不成功 
的查找在检索结构中将进行得更快些，而在二分查找树中则要慢些。对于这个数据 
来说查找的不成功次数多于成功的次数，所以从速度观点看，检索结构是更可取的。 

3. 如果我们应用的对象是图15的 KWIC 索引而不是31个最普通的英文字， 
则由于这个数据的特性，检索结构就失去它的优越性了。例如，一个检索结构为了 

区别 COMPUTATION 和 COMPUTATIONS 竟需要作 12 次迭代。这种情况下，若把检索结 

构构造成从右到左扫描字，而不是从左到右，则更好些。 

表示一族串的检索结构的抽象概念是由 Axel Thue 在不包含相邻重复子串的 

——篇论文 [Sicrifter udgivne ai Videnskabs - Selskabet i Christiania, Mathematisk - 
Naturvidenskabelig Klasse (1912 ) No . 1 ，重新印刷在 Thue W Selected Mathematical 
Papers ( Oslo ： Universitetsforlaget , 1977) ， 413 〜 477] 中引进的。 

用于计算机查找的检索结构的存储的思想，首先由 Rene . de . la Braindais 推荐的 
[ Proc . Western Joint Computer Conf . 15(1959) ,295 〜 298]。 他指出，如果我们对每 

个节点向量都使用一个链接表，则可以以运行时间为代价来节省内存空间，因为大 
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多数向量的元素趋向于空。实质上，这个思想在于通过图31中所示的森林来代替 
表1的检索结构。在这样一个森林中，查找是通过如下方式进 行的： 首先找到与第 
一个字符匹配的根，然后找到与第二个字符匹配的该根的子根，等等。 

在这篇论文中 ， dela Briamkis 并不完全像表1或图31中所示的那样停止树的 

分叉； 而是继续一个字符挨一个字符地表示每个键码，直到达到字结束的限定符为 
止。于是，他实际上使用了 



来代替图31中的％”树。这个表示要求更多的存储，但是它使得可变长数据的处理 
特别容易。如果我们对每个字符使用两个链接字段，则动态插入和删去即可以用一 
种简单的方式来处理。 


如果我们使用通常的方法把树表示作二叉树，则 （1) 就变成二叉树(在图31的完 
全森林表示中，我们也应有一个从 H 向右引到其邻近根 I 的一个指针）。在这 株二叉 
树中，査找如下进 行:把 变元中的一个字符同树中的字符加以比较，沿着诸 RLINK 直到 
找到一个匹配 为止; 然后取 LLINK 并以同一方式来处理变元的下一个字符。 



( 2 ) 


对于这样一株二叉树，我们或多或少地通过比较法进行查找，用相等-不相等的分支 
代替了小于-大于的分支。 6.2.1 小节的基础理论告诉我们，为了区别 N 个键码，平均说 
来，必须至少作 lg /V 次 比较; 当查找像图31那样的一株树时，所作的平均查找次数，至少 
必须同使用 6.2 节的技术进行一次二分查找时所作的平均检验次数一般多。 

另一方面，表1中的检索结构一次就能进行整个 M 路 分支； 我们将看到，如果 
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输入数据是随机的，则对于很大的 iV 的平均查找时间，大约只要 

log M N = lg N/lg M 

次迭代。我们还将看到，类似算法 T 中的一个“纯粹”检索结构方案，需要总数约 N / 
In N 个节点对 iV 个随机输人进行 区别； 因此总共的空间数量同 MN/ln M 成正比。 

从这些考虑显然可看岀，检索结构的思想仅在树的头几级中有益。把两种策略 
混合使用，即对头一些字符使用检索结构，而后又转到某种其它的技术上，我们可以 
获得更好的性能。例如， E . H . Sussenguth , Jr[CACM 6 ( 1963)，272〜279 ] 曾提议把 

逐个字符的方案一直用到树的那样的部分，其中，比如说，文件中的键码至多是六 
个，然后，我们就能顺序地扫视剩下的键码的短表。我们将看到，这个混合策略能减 
少约六分之一的检索结构节点数，而运行时间并没有很大的变化。 S . Y . Berkovich 
^Doklady Akademii Nauk SSSR 202(1972),298 〜 299 [英译 : Soviet Physics - Doklady 

17 (1972),20 〜 21] 中提出一个有趣的方法，该方法用于存储在外存中不断增长的 
大的检索结构 D 

T . N . Turba[CACM 25(1982) ，522〜 526] 指出，有时，通过对于每个不同的长度 
都有一株查找树或检索结构，来对可变长的键码进行查找，是最方便的。 

二进的情形 现在考虑 M = 2 的特殊情况，在这种情况下，我们每次扫描查找 
变元的一个二进位。已经提出了两种有趣的方法，它们特别适合于这一情况。 

第一种方法，我们将称之 为数字树查找 ，它是由 E . G . Coffman 和 J . Eve[CACM 
13(1970) ,427〜 432,436] 给出的。这个思想同 6.2.2 小节树查找算法中所做的完 
全一样，在该节点中存储全键码，但使用该变元的二进位（而不是用比较的结果）来 
支配在每步中是取左分支还是取右分支。图32表示，当我们以递减频率的次序插 
入31个最常用英文字时，用这种方法所构成的树。为了给这个图提供二进数据，先 
把这些字表达成 MIX 的字符代码，然后再把字符代码转换成每个字节5个二进位的 
二进数。例如，字 WHICH 表示为“11010 01000 01001 00011 01000”。 

为了在图32中查找 WHICH 这个字，我们首先把它同该树根处的 THE 进行比较。 
因为没有匹配，且 WHICH 的第一个二进位是1，我们向右移而同 OF 作比较。因为还 
不匹配，且因 WHICH 的第二个二进位是1,我们向右移，而同 WITH 进行比较，等等。 
在一个数字查找树中键码的字母顺序不再对应于节点的对称顺序。 

把图32和 6.2.2 小节中的图12作一对照是有趣的，因为后一株树是以同一方 
式形成的，但是用比较而不是用用于转移的键码二进位形成的。如果我们考虑给定 
的频率，则图32的数字查找树要求对每次成功的查找平均进行 3.42 次 比较； 这比 
图12所需要的 4.04 次比较稍微好些，尽管每次比较花费的时间可能不同。 

算法 D (数 字树查找） 给定一个记录表，它形成如上所述的一株二叉树。本算 
法查找给定的变元 K 。 如果 K 不在表中，则把包含有 K 的新节点插人这株树的适 
当位置中。 

本算法假定，这株树是非空的且其节点如算法 6.2.2 T 中那样，有 KEY 、 LLINK 和 
RLINK 字段。事实上，读者可以验证，这两个算法几乎是相同的。 
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1062 


1093 


图32对于以递减频率次序插人的31个最常用英语单字的一株数字査找树 

D 1 •[初始化]置 P — ROOT ， 且 iT — K 。 

D 2. [比较]如果 iC = KEY ( P )， 则这个查找成功地结束。否则置6为的第一 

个二进位，并且把 iT 左移一位（由此删去该二进位并在右边引入一个0)。 
如果6=0,则转到 D 3, 否则转到 D 4。 

D 3. [左移]如果 LLINK ( P )# A ， 则置 P — LLINK ( P ) 并转回到 D 2, 否则转到 D 5。 
D 4 •[右移]如果 RLINK ( P )# A ， 则置 P — RLINK ( P ) 并转回到 D 2。 

D 5. [插入树中]置 Q <^ AVAIL , KEY ( Q )— K ， LLINK ( Q )— RLINK ( Q )— 八。如果6 = 

0则置 LLINK(P)—Q, 否则置 RLINK(P)—Q 。 | 


尽管算法 6.2.2 T 的树查找本质上是二进的，但不难看出，现在的算法可以被扩 
充成对任何 M > 2 的一个 M 叉数字查找（见习题13)。 

Donald R . Morrison[JACM 15(1968) ，514〜534]已经发现一个非常好的方法形 

成以键码的二进表示为基础的； V 节点查找树， 而无需 在节点中存储键码。他的方 

法，称为帕特里西亚 （“ Patricia ”） （是 Practical Algorithm To Retrieve Information 

Coded In Alphanumeric 字头拼写成的） ® ，特别适合于处理极其长的、可变长的键码， 
例如存储在一个大型文件中的标题或短句。 

Patricia 的基本思想是要构造一个二进的检索结构，但在每个节点中都包含了 
在作下一个检验之前可以跳过的二进位的位数，以避免单路分支。有若干方法来说 
明这一 思想； 也许最便于说明的如图33中 所示。 我们有一个二进位的 TEXT 阵列, 
它通常都十分 冗长； 它可以作为一个外部直接存取文件存储，因为每次查找仅访问 
TEXT —次。有待存入我们表中的每个键码，都由文本中的一个开始位置确定，并且 


①意指检索按字母数字编码的信息的实用算法。一译者注 
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总可把它想像成要由这个开始位置起直至达到文本的末尾为止 （ Patricia 不查找键 
码和变元之间的严格相等性，而是来确定是否存在以该变 元开始 的一个键）。 

图 33 中所描述的情况包含 7 个键码，在每个字处都开始一个键码，即 “THIS IS 

THE HOUSE THAT JACK BUILT?” （这是杰克建造的房子？）以及 “IS THE HOUSE THAT JACK 
BUILT?” （是杰克建筑的房子吗？）以及……以及 “BUILT?” （建造？）。有一个重要的限 
制， 即没有任何一个键码可以是另一个键码的 前缀； 如果我们以一个在别处都不出 
现的惟一的文本结束代码（在现在情况下是“？”），来结束文本，则这个限制即可满 
足。同样的限制也隐含在算法 T 的检索结构中，在那里“ U ”是结束代码。 

THIS u IS u THE u HOUSEuTHAT u JACK u BUILT? 

10 mo 100001001101100000001001 10110(K>0<>0 ion 10!000<X)]0100<XK]0100010CK)0110(H) 101 IDCK)1010CK)0010 


Header 



图 33 Patricia 树和 TEXT 的一个示例 

Patricia 用以查找的这株树，应当包含在随机存取存储器中，或被安排在 6.2.4 
小节所建议的一些页上。它由一个表头和 JV -1 个节点所组成，这些节点都包含若 
干个 字段： 

KEY, 指向文本的一个指针。如果文本含 C 个字符，则这个字段的长度必须至 

少有 lgC 个二进位。在图33中，每个节点内所示的字，实际上都可由指向 
文本的指针来 表示； 例如，该节点不是包含 “( JACK )”， 而将包含数 24( 它指 

出在文本串中 “JACK BUILT” 的开始位置）。 

LLINK 和 RLINK ， 在树内的指针。这些字段的长度至少必须是 lg N 个二进位。 
LTAG 和 RTAG , 两个单二进位的字段，它们分别表示 LLINK 和 RLINK 是指向这个 

节点的儿子还是祖宗的指针。图 33 中的虚线对应于其 TAG 二进位为 1 的 
指针。 




465 












SKIP ， 如下所述，它是一个数，说明当查找时应跳过多少二进位。这个字段应该 

足够大，使得对于作为至少两个不同键码的一个前缀的某个串 ( J ， 具有前 
缀 a 的所有键码在紧接着 a 之后的下々个二进位相一致。实际上，我们 
通常可以假定々不太大，如果它超过了 SKIP 字段的大小，则可给出一个 
错误指示。 SKIP 字段在图33中表示为每个节点内的数。 

表头仅含 KEY 、 LLINK 和 LTAG 字段。 

在 Patricia 树中的查找是如下进 行的： 假设我们正在查找字 THE (二 进位的型式 
为 10111 01000 00101 )。 我们从寻找根节点 a 的 SKIP 字段开始，它告诉我们检查这 
个变元的头一个二进位。该位是 1, 所以向右移。下一个节点 7 的 SKIP 字段告诉我 
们寻找这个变元的第 1 + 11 = 12 位。该位为 0, 所以左移。下一个节点，的 SKIP 字 
段告诉我们寻找第 （12 + 1) 位，该位是 1; 现在找到 RIAG=1, 所以回到节点 7, 它让我 

们参考 TEXT 。 我们所走过的查找通路将对其二进位型式是 1XXXX X X X X X 

X 01…的任何变元出现，因此必须检验，看看它是否匹配以该型式开始的惟一键码 

即 THE 。 

另一方面，假设我们寻找一个或所有以 TH 开始的键码。这个查找过程同上面 
所述的过程一样开始，但它最后试图查找10位变元的（不存在的）第12位。这时， 
我们在当前节点所确定的点处(在现在情况下为节点7)，把变元同 TEXT 作比较。如 
果它不匹配，则此变元就不是任何键码的 开头； 但如果它匹配了，则此变元就是每一 
个由节点7和其后裔中的虚线所表示的键码（即 THIS , THAT , THE ) 的开头。 

这个过程可以更精确地叙述如下。 

算法 P ( Patricia ) 给定一个 TEXT 阵列和一株具有如上所述 KEY 、 LLINK 、 RLINK 、 
LTAG , RT AG 以及 SKIP 字段的树，本算法确定在这个 TEXT 中是否有一个以特定变元 
K 开始的键码。（如果对于存在 r 个这样的键码，则随后有可能在 O ( r ) 步 
内来确定所有它们的 位置; 见习题14。）我们假定至少存在一个这样的键码。 

P 1. [初始化]置 P — HEAD 和）—0。（变量 P 是一个沿此树下移的指针，而_；‘是 

一个计数器，它将标记变元的二进位的位置）。置 n — K 中二进位的个数。 

P 2 •[左移]置 Q—P 和 P — LL ! LNK ( Q ) 0 如果 LTAG ( Q ) = 1，则转到 P 6。 

P 3. [跳过二进位](这时我们知道，如果 K 的前 7 个二进位同无论哪一个键码 

匹配，则它们都同在 KEY(P) 处开始的键码匹配。）置 j—j + SKIP(P)o 如果 

; >〜转到？6。 

P 4. [检验二进位](这时我们知道，如果 K 的前_ 1 个二进位同无论哪一个 

键码匹配，它们都同在 KEY ( P ) 处开始的键码匹配。）如果 K 的第 j 个二进位 
为0,则转到 P 2, 否则转到 P 5。 

P 5 .[右移]置 Q—P 和 P — RL ； LNK ( Q ) 0 如果 RTAG ( Q ) = 0 ,则转到 P 3。 

P 6. [比较](这时我们知道，如果 K 同任何一个键码匹配，它都同在 KEY(P) 处 

开始的键码匹配。） K 同 TEXT 阵列中位于 KEY(P) 处开始的键码作比较。如 
果它们相等（直到 n 位，即 K 的长度为止），则这个算法成功地 结束； 如果 
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不相等，则它以失败告终 。I 

习题15说明了首先可以怎样来构造 Patricia 树。我们也可以把新的内容加到 

文本中和插入新的键码，只要新的文本材料总是以惟一的限定符（例如，一个文本结 

束符号后面接一个序列号)结尾即可。 

Patricia 有一点技巧，而只有仔细地阅读，才能揭示它的所有美妙之处。 

算法的分析 在结束本节之前，让我们对检索结构、数字查找树以及 Patricia 进 

行一番数学研究。这些分析的主要结果在最后综述。 

我们首先考虑二叉检索结构的情况，即 M = 2 的检索结构的情况。图34表示， 
当第5章排序例子的十六个键码被处理作10位的二进数时，所形成的二进检索结 
构[这些键码均以八进制记法示出，例如1144表示10位数612= (1001100100) 2 ]。 

如同在算法 T 中那样，我们使用检索结构来存储键码的前导二进位的信息，直到达 
到了键码被惟一确定的第一个位置 为止； 然后此键码被全部重新记录。 



图 34 —个随机二叉检索结构的例子 

如果把图34同表 5.2.2-3 进行比较，便可显示出检索结构存储同基数交换排 
序之间的令人惊异的关系（再又，这个关系也许是很显然的）。图34的22个节点精 
确地对应于表 5.2.2-3 中的22个分划阶段，而且在前根次序下的第 f 个节点对应 
于阶段/>。在一个分划阶段中二进位的检索数，等于在对应的节点和其子检索结构 
内的键码的个数；因此，我们可以叙述下列结果。 

定理 T 如果按如上所述把 N 个不同的二进数放置到一个二进检索结构中，则 
( i ) 这个检索结构的节点数就等于把这些数按基数交换排序所需要的分划阶段数; 
以及 （ iO 借助于算法 T 检索一个键码所需要的二进位探查的平均次数，等于 1/ N 乘 

以按交换排序所需要的二进位探查数 。 ■ 

由于这个定理，我们可以利用在 5.2.2 小节中为进行基数交换而研制的全部数 
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学机器。例如，如果假定，我们的键码是在0〜1之间一致分布的无限精度的随机实 
数，那么，为进行检索所需要的二进位探査数将是 lg N + y / ln 2 + l /2+^( N ) + 
p ( iVH ), 而检索结构的节点数将是 N/ln 2+ NS ( N ) + 0(1) 0 这里， 3( N ) 和 

万 ( iV ) 是可以忽略的复杂函数，因为它们的值总小于10 _6 (见习题 5.2.2-38 和 
5.2.2-48)。 

当然，还有更多的工作犹待完成，因为需要把二进检索结构推广到 M 进检索结 
构。我们在这里只描述研究的起点，而把有益的细节留作习题。 

设 A N S 在包含 iV 个键码的随机 M 进检索结构中的平均内节点数。于是 Ao 
^ AeO , 且对于 iV >2, 我们有 



因为 iV ! M ~ N lk \ - k M \ 是幻个键码在第一个子检索结构中，…个键码在第 
M 个子检索结构中的概率。利用对称性然后对& 2 ,…，求和，这个等式可改写成 


A 




M 1 


-N 



2 




N 


/ N ! 



1 + M 1_ N X 1 0 (M - l ) N ~ k A k 对于 N >2 (4) 

k \ / 

类似地，如果 C N 表示为找出检索结构中所有 iV 个键码所需要的二进位探查的平均 
总和数，则我们发现 C Q = C \ = 0且 


C N = N + - l ) N ~ k C k 对于 N >2 (5) 

k ^ f 

习题 17 说明了怎样处理这种类型的一般递推式，而习题 18-25 给出了对应的随机 
检索结构的理论[对于 A n 的分析，首先是由 L . R . Johnson 和 M . H . McAndrew 联系 

到一个等价的面向硬件的排序算法时从另一种观点解决的，见 fflM J . Res . and 
DeveL 8(1964) ,189 〜 193]。 

如果我们现在回到数字査找树的研究上，则会发现这些公式都是类似的，但又 
有足够的不同，即是，不容易看出怎样导出渐近特性来。例如，如果表示当在一 

株二叉数字查找树岀全部 ] V 个键码时所作的二进位探查的平均总数，则和上 
面一样，不难导出 CfjsCisO , 且 

C N+1 二 N + M 1 - N 2( f)(M - l ) N ~ k C k 对于 iV >0 (6) 

这几乎和等式 (5) 相同； 但是在这个等式左边出现 N + 1而不是 iV ， 这足以改变递推 
式的整个特征，因此我们用来研究 (5) 的诸方法都不能用了。 

现在让我们首先考虑二进制的情况。图35示出，当已按第5章的例子所用的 
次序插入16个示例性的键码时，对应于图34的数字查找树。如果我们要确定在一 
次成功的随机查找中所作的二进位探查平均次数，则它恰巧是这株树的内部路径长 


• 468 • 


6.3 数字查找 

度除以 n , 因为我们需要/个二进的探查来找 出级/ 上的一个节点。然而，要注意 
的是，在一次不成功的随机查找中所作的二进位探查的平均次数，并非简单地同这 
株树的外部路径长度相关，因为不成功的查找更可能出现在靠近根的外部节点处; 

于是，达到图35中节点0075的左子分支的概率是^■(假定是无限精确度的键码）， 

而遇到节点0232的左子分支的概率仅为由于这个原因，当诸键码一致分布时， 
数字查找树一般来说比算法 6.2.2 T 的二分查找树能更好地维持平衡。 



图 35 由算法 D 构造的一株随机数字査找树 

我们可以用生产函数描写一个数字查找树的有关特征。如果在级 Z 上有〜个 
内节点，则考虑生成函数 = 例如，对应于图35的生成函数为 a ( z ) = l 

+ 2 z + 4 z 2 + 5^ 3 + 4^ 4 o 如果在级 Z 上有~个外节点，且如果 = 则由 


习题 6.2. 1 _ 25有 

b ( z ) = 1 + (2 z — \) a { z ) (7) 

例如，1 + (2 z - 1)(1 +2 z + 4 z 2 + 5 z 3 + 4 z 4 ) = 3 z 3 + 6 z 4 + 8之 5 。在一^次随机的成功 

查找中，所作的二进位探查的平均次数是，（1)心（1)，因为，（1)是树的内部路径 
长度，而 a ( l ) 是内节点数。在一次随机的不成功的査找中，所作的二进位探查的平 


均次数是 S ^ 2 — 

给定外节点处结束的。比较次数等同于二进位探查的次数，在一次成功的查找中此 
数要加1。例如，在图35中，平均来说 ，一 次成功的查找将花费2卷次二进位探查和 


2 


a 


2 


，因为我们是以2 


— I 


的概率在级 Z 上的 


个 


3荅次比较;-次不成功查找的二进位探査和比较次数都将是3 



8 



现在设^^(:^是具有以个节点的树的“平均” a ( z ) ;换言之， gjsKW 是对于具有 


N 个内节点的所有二进数字查找树的求和式2和 ^ T (2：)， 其中 flT ( Z ) 是了的内节 


參 
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点的生成函数，九是当使用算法 D 插入 N 个随机数时： T 出现的概率。那么，在一 
次成功的查找中二进位探查的平均次数将是 g ； v ( l )/ N ， 在一次不成功的查找中为 


gN 


2 


我们可以模拟树的构造过程计算出如下。如果是有 N 个节点的 

株树的生成函数，则我们可以通过在任何一个外节点位置上作下一次插入，而形 
成 N + 1 株树，这个插入以 2- < 的概率进到级 Z 上一个给定的外 节点； 因此 ， N + 1 株 


1株树，这个插入以2 


新树的生成函数乘以岀现的概率再求和为 a ( z )^ b [ j - z \ = 


a ( z ) + l + ( 2 ： — l)a 


2 


2： 


o 


对于所有具有 JV 个节点的树取平均值，就得 


gN+l ( 


Z 


= gjV(20 + l + ( 之一 l)g 



N 


2 


之 ) ； go(z) 


0 


⑻ 


外节点对应的生成函数 / i N U ) 
价于公式 




1 + (2 z ~ l)g 


N 


幻，是更为容易给出的，因为（ 8 )等 


h N + l ( z ) = h N ( z ) + (2 z - l ) h N y 2 ： 


； ha ( z ) 


⑼ 


重复地应用这个规则，我们求得 


h N +1 ( z ) = h N - i ( z ) + 2(2 z - l )/ ijv-i ) + 


IK 之 一 



4 


z 


h 


N -2 


z 



3(2 




l)h 


N-2 


2 





3(2 z - 1 )U - l)h 


N -2 


4 


Z 



(2 z - l)(z - 1) f ^" 2 ： - 1 j h N — 2 



z 


等等，于是最后我们有 


h 


N 


1 


N 


Z 




gN ( 


z 


2 

4>0 


N 


k-1 


k 



Yl( 2 ~ Jz - !) 


0 


例如，尽 4( 之 ）= 4 + 6(2 ： — 1) + 40 — — lj + 0 - l)(j2：-l 

些公式使得有可能把我们正在寻找的量表达为乘积的和： 


C N 


^ n ( I ) 


2 

4>0 


N 


k 




2 


,1(2 


- 1) 


gN 


2 


S 

k >0 


N 


k 



n(2 勹 -1) 


c 


N+l 


- c 


( 10 ) 


( 11 ) 




4 




~ 1 


这 


( 12 ) 


N 


(13) 


这个的公式满足 （6)， 这全然不是显然的! 


可惜，由于2 


-1 是负的，这些表达式不便于计算或求出一个渐近展开式；我 
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们得到相当大的项并有大量的消去。应用习题 5.1.1-16 的分划恒等式，可以得到 
Gv 的一个更有用的公式。我们有 


c N = (n(i -2- N ) (- i ， n(i - 2-㈠ - ”- 1 = 

1 、是十 2 i^o 

(Hu - 2 -”)2( N )(-1 ， 2( 2 -Hrn(i - 2 - 。- 1 = 

1 走 >o\ 是十 2 / m^O r - 1 



乍一看去，这似乎并不是对于等式 （12) 的一个改进，但它有个很大的优点，即它对于 
每个固定的 n 对 m 的求和皆迅速收敛。对于等式 5.2. 2-(38)、和5.2.2_(39)中检 
索结构的情况，出现一种精确地类似的状态；事实上，如果我们仅仅考虑（14)中”= 
0的项，则我们恰有 JV -1 加上在一个二进检索结构中的二进位探查数。现在可以 
继续用同以前完全一样的方式，得到这个渐 近值； 见习题27。[上面的推导在很大 

程度上是以 A . J . Konheim 和 D . J . Newman 所提议的方法为基础的，见 Discrete 
Mathematics 4(1973) ，57〜 63] 。 

最后让我们对 Patricia 进行一点数学考察。在这种情况下，二叉树就像是在相 
同的一些键码上的对应的二进检索结构，但是被挤压在一起了（因为 SKIP 字段消去 
了 1路分支），因此总有 iV -1 个内节点和 iV 个外节点。图36示出了对应于图34 
的检索结构中16个键码的 Patricia 树。在每个分支节点中所示的数是 SKIP 的数 
量； 尽管外节点并不明显地出现，但键码还是用外节点来标记（实际上每个外节点都 
用一个带标志的链接代替，该链接通到一个访问 TEXT 的内部节点处）。为了分析的 

目的，我们可以假定如所示那样存在外节点。 

由于通过 Patricia 进行的成功查找结束于外节点处，故在一次随机的成功查找 
中所作的二进探查的平均数将是外部路径长度除以 iV 。 如果我们对于外节点，像上 
边那样构造生成函数 6 U )， 则这将是 b ， ⑴ lb(l )。 通过 Patricia 的一次不成功的查 
找，也结束在一个外部节点处，但级 Z 上的外节点均以概率2〃加权，所以二进位探 


查的平均数是音例如，在图36中，我们有 6 U ) = 3 z 3 + 8 z 4 + 3 z 5 + 2 z 6 ; 平 

1 

均说来，每次成功的查找有4 f 个二进位探查，每次不成功的查找有3 g 个。 


设 / ijz ) 是由？ 2 个外节点，利用一致分布的键码构造成的一株 Patricia 树的“平 
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均” b ( z )。 递推关系 

h n ( z ) = 2 1-72 ^ { 71 \ h h ( z)(z + 〜 (1 一 z )) , h 0 ( z ) = 0, h Y ( z ) = 1 (15) 

k \k f 

似乎没有简单的解。幸而平均的外部路径长度 AU 1) 有一个简单的递推式，因为 

a；(d =2 卜 2(” w ⑴ +2i_ ”z ； n 々 (i - d = 

kk \k ! 



由于这有 （6) 的形式，我们就可以使用已经建立的用来解 AUl ) 的诸方法，其结果恰 

巧比在一个随机的二进检索结构中对应的二进位的探查数小 n 。 于是对于随机数 
据， SKIP 字段为每次成功的查找节省一个二进位探查（见习题31)。典型的实际数 
据的冗余性将导致更大的节省。 



to 



图 36 Patricia 构造代替图 34 的树 

当我们试图推算用 Patricia 进行的一次随机的不成功查找的二进位探查平均数 
时，我们得到递推式 


a n = 1 + 1 X )( jq ， 对于 ” >2; a 。 = q = 0 (17) 

乙 ~ ^k<n\k 

这里，〜=音<(士)。这不是我们已经研究过的任何递推式的形式，而且也不容易 

把它转换成过去见过的那种递推式。在 5.2.2 小节介绍的 Mellin 转换理论以及在 
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那里引用的参考文献，提供了处理有一个数字特征的递推式的髙级方法。事实上， 
已经证明了这个解包含贝努 利数： 



对于 n >2 


(18) 


这个公式大概是我们需要解决的最难的渐近问题；习题34中的解，是对我们以前做 
过的许多事情的有益的回顾，并带有某些稍微不同的意味。 

分析的综述 作为本节所有复杂的数学推导的结果，下列事实也许是最值得注 
意的。 

a ) 为把 JV 个随机键码存进一个 M 进检索结构中所需要的节点数（检索结构中 
的分支终止于键数的子文件）近似地是 NKsln M ) 0 这个近似对于很大的 iV , 
小的^以及小的 M 是正确的。由于一个检索结构包含 M 个链接字段，故我们若 
选择 s = M ，则仅需要大约 iV/ln M 个链接字段。 

b ) 在所有考虑过的方法中 ，一 次随机查找期间考察的数字或字符个数，近似为 
log M N 。 当 M = 2 时，各种分析给了我们下列更精确的二进位探査数的近 似值： 


成功的 不成功的 

检索结构査找 lg N + 1.33275 lg N - 0.10995 
数字树查找 lg N - 1.71665 lg N - 0. 27395 


Patricia lg N + 0.33275 lg N - 0.31875 

(这些近似都可用基本数学常数来表达，例如 0.31875 代表 (In tt - y)/ln 2- 1/2。） 

c ) 这里的“随机”数据意味着 M 进数字是一致分布的，就好像诸键是0 〜 1之间 
以 M 进记法来表达的实数那样。数字查找方法同键码进入文件的次序无关(算法 
D 除外，它是惟一对次序稍微敏感 的）； 但它们对于数字的分布非常敏感。例如，如 
果0的二进位比1的二进位更普遍，则这株树将变得比上面分析的随机数据的情况 
显得更为倾斜（习题 5.2.2-53 探讨了一个例子，说明当数据如此偏向时发生的情 
况）。 


习题 

1 . 100 ] 如果一株树有叶，则一个检索结构有什么？ 

2. [20] 利用算法 T 的约定，试设计把一个新的键码插入到一个 M 进检索结构中去的算法。 

3. [21] 利用算法 T 的约定，试设计从一个 M 进检索结构删去一个键码的箅法。 

► 4.[2 i ] 表1中的360个项的大多数都是空白（空链 接）。 但是我们可以通过使一些空的项同 
非空的项进行重叠，把这张表压缩成49个项 如下： 
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Position 




寸 1 




00 

G\ 

o 

X 

X 

H 


寸 


so 


00 

G\ 


(N 

CNI 

CM 

CM 


Entry 


/^v 


C/3 

舊 

X 


O 

QQ 

UU 

X 

c/i 

5 

o 

画 

C/) 

X 


f—^ 

: z 
O 


UQ 

X 

< 

o 

s 


o 

§ 

X 


Position 


Entry 



(表1的节点（1)，（2)，…， （12) 分别在这个压缩表内的位置20，19,3，14，1,17,1，7,3,20，18,4处 
开始 0) 

证明，如果以压缩的表代替表1，则程序 T 仍将有效，但不十分快。 

► 5.[ M 26] ( Y . N . Patt ) 图31的诸树，在每族中它们的的字母都是按字符顺序排列的。这 
种顺序不是必要的，如果我们在构造像 (2) 那样的二叉树表示之前，重新安排族内节点的顺序，则 
可得到更快的査找。从这个观点看，图31的什么样的重新排列是最优的？（利用图32的频率假 
定，并且去找这样的森林，即当它表示成一株二叉树时，它使成功的査找时间极小化 

6 .[ 15 ] 如果通过算法 D 以递增次序插人15个4位二进键码0001，0010,0011,…，1111，则 

将得到什么样的数字査找树（在根处以0001开始，而后进行14次插入）？ 

► 7.[ M 26] 如果以另一种次序插入习题6的15个键码，则我们得到一株不同的树。在这些键 
码的所有15!个可能的排列当中，哪一个是最坏的？所谓最坏指的是它产生具有最大内部路径 
长度的一株树。 

8. [20] 考虑下列对于箅法 D 的修改，它有消去变量矿的 作用： 在步骤 D 2 中在两个位置上 
都把 “ iT ” 改成 “ JC ”， 并从步骤 D 1 删去操作“矿― K ”。 试问得到的算法对于査找和插入是否仍将 
正确？ 

9. [21] 写岀算法 D 的一个 MIX 程序，并把它同程序 6.2.2 T 作比较。你可以使用诸如 SLB 
(左移的二进位 AX )。 JAE (如果 A 为偶则转移）等二进 操作； 你也可以使用习题8的思想，如果它 
有帮助的话。 

10. [23] 给定一个文件，其中所有键码都是 rz 位二进数，并给定一个査找变元 K = 

，假设我们要来求々的这样一个极大值，使得在这个文件中存在一个键码，它以二进位模式 

… b k 开始。 

如果把这个文件表示成 

a ) —株二进査找树(算法 6.2.2 T ); 

b ) —个二进检索结构（算法 T ); 

c ) 一个二进数字査找树（算法 D ) ，则我们如何能有效地进行？ 

11. [21] 如果不作改变，试问算法 6.2.2 D 是否可用来从一株数字查找树删去一个节点？ 

12. [25] 在由算法 D 构造的一株随机数字查找树中删去一个随机元素之后，得到的树是否 
仍是随机的（参考习题11和定理 6.2.2 H )? 

13. [20] (M 进数字查找） 说明算法 T 和 D 怎样才能被组合成为一个扩充的算法，即当 M 
= 2时它实际上同算法 D —样。如果对于 M = 30 使用你的算法，则对表1将作什么改动？ 

► 14.[25] 试设计一个有效的算法，在算法 P 成功地结束之后，它能接着做下去，以确定出 K 
出现于 TEXT 中 的所有 位置。 
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15 . [ 28 ] 试设计一个有效的算法，它能用来构造为 Patricia 所使用的树，或者用来把新的 
TEXT 访问插入到一株现存的树当中，你的插人算法至多只能访问 TEXT 阵列两次。 

16. [22] 为什么对 Patricia 作出这样的限制，即任何键码不能是另一个键码的前缀，是合乎 
要求的？ 

17. [ M 25] 通过推广习题 5.2.2-36 的技术，借助二项式变换，找出一种表达递推式 

^0 ^ = 0; x n = a n + w >, [ . }(m - \) n ~ k x ky n^2 

k f 

解的方式。 

18. [ M 2 i ] 借助类似于习题 5.2.2-38 中定义的函数和利用习题17的结果，表达 (4) 
和 （5) 的解。 

19. [ HM 23] 对于固定的和 m > l ， 求当 n — oo 时函数 



的渐近值到0(1)。[在习题 5.2.2-50 中已经解决了 s 二 0的情况，而在习题 5.2.2-48 中已经解决 
了 5 = l ， m =2 的情况] 0 

► 20.[ M 30] 如果在 M 进检索结构存储中，当我们达到键数的子文件时，即使用顺序查找 
(算法 T 是 5 = 1 时的特殊情况）。试应用上面一些习题的结果来分析 

a ) 检索结构节点的平 均数； 

b ) 在一次成功的査找中数字或字符探査的平均数；以及 

c ) 在一次成功的査找中所作的平均比较次数。 

对于固定的 M 和 5 , 把你的答案叙述成当 N — oo 时的渐近公式；对于 （ a ) 的答案应该精确到 
0(1) 的范围内，而对 （ b ) 和 （ c ) 的答案应该精确到0(以 -1 )的范围内。[当 M = 2 时，这个分析也 
可应用于修正的基数交换排序上，在 这个棑 序中，其大小 <5的子文件是通过插入排序的。] 

21_[ M 25] 在含有 N 个键码的一个随机 M 进检索结构中，有多少个节点在表的项0中有一 
个空的指针？（例如，在表1的12个节点中，有9个在”位置中有空指针。本题中的“随机”像 
通常一样意味着键码的字符一致地分布在0与 M - 1之间。） 

22 . [ M 25 ] 在含有 iV 个键码的一个 M 进检索结构中对于/ = 0，1，2,…，有多少检索结构节 
点位于级/上。 

23. [ M 26] 在含有 N 个随机键码的一个 M 进检索结构中，在一次不成功的査找期间，平均 
作多少个数字探查？ 

24 . [ M 30 ] 考虑 一 '个 M " 进检索结构，它已经表不作 一 片森林（参见图31)。试找出对于下列 
两项精确的和渐近的表达式： 

a ) 在森林中节点的平均数； 

b ) 在一次随机的成功査找中执行的 “ P — RLINK ( P )” 的平均次数。 

► 25. [ M 24] 在本节中对于渐近值的数学推导已经十分困难，同时涉及复变理论，这是因为希 
望得到比渐近特性的第一项还要多的结果（而第二项实质上是复杂的）。本题的目的是证明，对于 
导出某些较弱的结果，初等方法已够用了。 

a ) 通过归纳法证明， （4) 的解满足 A n < M ( N -1)/( M - 1)。 

b ) 设 D N = C N - NH N -Jin M ， 其中 C N 由 （5) 定义。证明 二 O ( N ) ， 因此 C N = iVlog M N + 
0( N ) 0 [提 示：用 （ a ) 和定理 1.2.7 A ]。 

26. [23] 通过手算，确定无穷乘积 
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的值,精确到五位十进数。[提 示：参 见习题5.1.1_16。] 

27 . [ HM 31 ] 如同由 （14) 给出的那样,精确到 0(1) 的渐近值是什么？ 

28 . [ HM 26 ] 对一般的 JVT >2, 当在一株随机的 JVT 进数字査找树中进行査找时，试求数字探 
査的渐近平均次数，既考虑成功的也考虑不成功的査找，并给出你的答案，精确到 o(n 

29 . [ HM 40 ] 在一株 M 进数字查找树中，所有的 M 链接均为空的那些节点的渐近平均数是 


多少？（我们可以通过消去这样的节点来节省内存 空间； 参见习题13。] 

30.[ M 24] 证明在 （15) 中定义的 Patricia 的生成函数可以表达成相当吓人的形式 


m^i 



2 

*■ + a = n 
m 


n - l 

-1 ( ， … ， a；w 


m 


( 2 a i - l )(2 V fl 2 - 1)“-(2'—气 - 1 )J 


[于是，如果对有一个简单的公式，则我们将有能力来简化这个相当笨拙的表达式。] 

31. [ M 2 i ] 解递推式（16)。 

32. [ M 2 i ] 在具有 JV -1 个内节点的一株随机 Patricia 树中，所有的 SKIP 字段之和的平均值 
是什么？ 


33. CM 30] 证明 （18) 是对递推式 （17) 的一个解。[提 示： 考虑生成函数 A “）= E n > ofl〆 / 


w !。] 

34 . LHM 40 ] 本题的目的是求 （18) 的渐近特性。 
a ) 证明，如果 n ^2 



n 


2 

2 ^ k<n 




+ 2”一 1 


+ …+ (2, 一 1 广 


1 


V 


(”一 1 〉 


71 



b ) 证明 （ a ) 中的被加数近似于 l /( e " 〜 1) - l/z + 1/2,其中: c = ;得到的和等于原来的和+ 

0( n - l ) 0 


c ) 证明 



^( z ) r ( z ) x ^ z dz , 对于实 x >0 


d ) 因此这个和等于 




2ttiJ 



^(z)V(z)n' z 
2^ — 1 


dz + 0(n~ l ) 


计算这个积分。 

► 35.[ M 20] 在五个键上的 Patricia 树将是 



且有如图所示的 SKIP 字段的概率是多少？（假定诸键码都有独立的随机二进数，把笞 
案作为的函数给出。） 

• 476 - 





36.[ M 25] 兹有具有三个内节点的五株二叉树。如果我们考虑在各种算法下，对于随机数据 
这些树中的每一株作为查找树出现的频率，则我们发现下列不同的 概率： 



査找树 丄丄 1 

(箅法 6.2.2 T ) ~6 ~6 ^ 

数字树査找 1 1 1 

(算法 D ) T T ^ 



Patricia 丄 1 3 1 1 

(算法 P ) T T T T T 

(注意数字査找树往往比其它树更经常地成为平衡的。）在习题 6.2.2-5 中，我们发现在树査找箅 
法中，一株树的概率是 n ( l / s (: r ))， 其中乘积对所有内部节点 x 进行，而且 s ( x ) 是在以： c 为根的 
子树中内节点的个数。在 ( a ) 算法 D ;( b ) 算法 P 的情况下，试求一株树的概率的类似公式。 

► 37.[ M 22] 考虑在级/上具有~个外节点的一株二叉树。正文发现在数字查找树中，不成 

功的查找的运行时间不直接同外部路径长度 S 汍有关，而是实质上同修 正过的外部路径长度 

2/匕2〃成正比。证明或否 定：对 于具有 N 个外节点的所有树来说，最小的修正过的外部路径长 

度出现的条件是，所有外节点都出现在至多两个相邻的级上[参见习题5.3.1-20]。 

3S.[M40] 给定 a 和/?，在习题 37 的意义下，试建立一种算法，来找使 a •(内部路径长度）+ 
•(修正过的外部路径长度）取极小值的 n 个节点的树。 

39. [M43] 建立一个箅法，来找类似于 6.2.2 小节所考虑的最优二分査找树的最优数字査找 
树。 

► 40. [25] 设 mam …是一个周期二进序列，且对于所有々>0,皆有 = 证明有一种 

方法以 O ( N ) 个内存单元来表示这种类型的任何固定序列，使得下列操作可以在仅仅 OU ) 步内 
完成 ：给定 任何二进型式心心 …心 m ，确定这个形式在周期中出现的频繁程度（即，问有多少值 
存在且同时满足下列两个条件 :0</><7 V ， 且对于 0< A < n , 有 b k = a p + k ) 0 这个型式的长度 n 以 

及型式本身也是变量。假定每一个内存单元都足够大来存放0〜 N 之间的任何整数。[提 示：参 
见习题 14] 

41.[ HM 28] 这是对群论的一个应用。设 G 是字母 Ui ，…，丨上的自由群，即，所有串 a = 
br “ b r 的集合，其中 每个乂 是七或 a / 1 之一，且没有相邻的对 a ja - 或心… 出现。 a 的逆是 
^•••6 「，两 个这样的串的相乘方法是连接它们并消去相邻的互逆的对。设 H 是通过串|&，…， 
生成的 G 的子群，即，可以写成诸 p 及它们的逆的乘积的 G 的所有元素的集合。按照 （Jakob 

Nielsen) — '个著名定理（参见 Marshall Hall, The Theory of Groups (纽约： Macmillan, 1959 ) ，第 7 

章）。我们总可以求 H 的生成元心，…，且它们具有如下性质 ：诸仏 的中间字（或者如 

果它的长度为偶数，则至少为化的两个中间字符之一）在表达式 哗或 哪 中绝不被抵销，这里 e 

二±1，除非 2 •且 e = -1。这个性质意味着，有一个简单的算法用于检测 G 的一个任意的元素 
是否在 H 中 ：利用 2 n 个字母 ai f a { ，…， a : 在一个面向字符的査找树中记录 2 m 个键沒 i , 
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•••Ur ， …， G 。 设 — h 是 G 的一个给定的 元素； 如果 r 二 0, 则 a 显然在 H 中。否则査 
找 ct ， 求能匹配一个键码的最长前缀 H 。 如果有一个以上以 bfbk 开始的键码，则 a 不在 H 
中；否则设惟 一 的这样的键码是 bw c t = 0f ， 以 Qf e a - c~i … b k w b r 代替 ot 。 如果这个 a 

的新值比旧的更长（即如果/>々），则 cx 不在 H 中； 否则对 a 的新值重复此过程。 Nielsen 性质意 
味着这个算法总能结束。如果 cx 最终归结成空串，则我们可以把原来的 a 的表示重新构造成为诸 
0 的一个乘积。 

例如，设 101 ， 02，63 1 = I 666 y b ~ a ~ b ~ ， 6 ^ 2 _ 6 丨且 a = bbabaab ，森林 



^2 ^ e x B ； e 2 B- 


可用于上述箅法来导出 ewe we “ 给定诸 e 作为你的程序的输入试实现这个箅法。 

42.[23] (前压缩和后压缩）当二进键码的一个集合被用作下标以分划一个较大的文件 
时，我们不必存储完全的键码。例如，如果使用图34的16个键码，则只要已经给出足够位的数字 
来惟一地识别它们，就可以在右边截断这些键码： 0000 , 0001 , 00100 , 00101 , 010 ,…， 1110001 。这 
些截断了的键码可用来把一个文件划分成17部分，其中，例如第五部分由所有的以0011或010 
开始的键码组成，而最后部分包含以 111001 ， 11101 或 1111 开始的所有键码。在截断后的键码 
中，如果我们去掉所有同上一个键码相同的前导数字，则可以表示得更紧凑： 0000 , 0 <> 01 , 0 ◊ 
100 , 00001 ， 010 ，*", 0000001 。跟随◊后边的二进位总是 1 ,所以它可以去掉。一个大的 
文件将有许多◊，而且我们仅仅需要存储◊的个数和随后的二进位的值。 

试证明，在压缩的文件中，除开◊和跟随◊的二进位 1 外，二进位的总数总等于键码的二进检 
索结构中的节点数。 

(因此，在整个下标中，这样的二进位的平均总数大约是 TV/In 2,即每个键码仅 1.44 个二进 
位。这项压缩技术是由 A . Heller ■和 R . LJohnsen 告知作者的。由于我们仅需表示检索结构，因此 
还可能作进一步 压缩； 参见定理 2.3.1 A 。） 

43.1 HM 42] 试分析有 iV 个键码和如同在习题20中一样有切断参数 s 的一个随机 M 进检 
索结构的髙度。（当 s = l 时，这是在 M 进字母表中 7 V 个长的随机字的最长公共前缀的长度。） 

► 44. [30] (J . L . Bentley 和 R . Sedge wick ) 试剖析检索结构的一个三进表不，其中左右链接对 

应于 ( 2 ) 的水平分支而中间链接对应于向下的分支。 

45.[ M 25] 如果通过习题15的算法把图33的七个关键字以随机次序插入，问得到所示的树 

的概率是多少？ 

6.4 散列 

至今我们已经考虑的查找方法，是以给定的变元 K 同表中的键码作比较，或使 
用它的数字，来支配一个转移过程为基础的。第三种可能性是避免来回搜査，这就 
是通过对 K 作某种算术运算，计算一个函数 /( K ), 它是 K 的位置和表中的相关数 
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例如，再次考虑31个英文字的集合，在 6.2.2 小节和 6.3 节中我们已经对于这 
些英文字施以各种查找策略。表1示岀一个短的 MIX 程序，它把这31个键码的每 
一 个都变成为在 - 10和30之间惟一的数 /( X ) 0 如果我们把这个 MIX 程序所用的 
方法同已经考虑的其它方法（例如，二分查找，最优树查找，检索结构存储，数字树查 
找）作比较，则发现，从空间和速度两方面看，它都是更好的，只有二分查找使用的内 
存稍微少些。事实上，对于图12的频率数据，使用表1的程序，一次成功的查找的 
平均时间，大约仅 17. 8〃，而且为存储31个键码仅需要41个表单元。 

_ 可惜，发现这样的函数 /(K) 并不是很容易的。从一个 31 个元素的集合到一个 
41 元素的集合有 41 31 〜 10 5G 种可能的函数，而且它们当中仅仅 41-40 . 11=41! / 

10!〜10 43 个能对每个变元给出不同 的值； 于是每一千万个函数当中大约仅仅有一 
个是适用的。 

避免重复值的函数是异常稀少的，甚至对于一个相当大的表也是这样。例如， 

著名的“生日饽论”断言，如果有23个以上的人在一个房间里，则他们当中两个人有 

相同的出生月日的可能性很大。换言之，如果我们选择一个随机函数，它映射23个 

键码到大小为 365 的 一 张表中，则两个键码不映射到同一个单元的概率仅仅是 

0.4927( 少于二分之一）。这一结•果的怀疑者们不妨在他们参加的下一次大型集会 
上查查各人的生日有无相同的。 

[生日悖论在1930年代曾由数学家们非正式地讨论过，但它的起源不清楚。参 

Mn . J.GoocUrobabiLYyandAe Weighing of Evidence ( Griffin , 1950), 38,也请参见 

(R • von Mises) ， Istanbul Universitesi Fen Fakultesi Mecmuasl 4(1939)，145 〜 163 ,以 
及 （ W . Feller)，An Introduction to Probability Theory ( 纽约： Wiley ， 1950) ， 2.3 节 ] 

另一方面，表 1 中所用的方法是相当灵活的[参考 M . Greniewski 和 W . Turski ， 

CACM 6 (1963) ，322 〜 323]，而且对于一张中等规模的表，在进行了大约一天的工 

作之后，就能找到一个适当的函数。事实上，解决像这样的难题是颇为有趣的。许 
多人都曾参加过有关适用技术的讨论，例如，包括 R . Sprugnoli,CACM 20 (1977)， 
841 〜850 ,22(1979), 104, 553； R . J . Cichelli , CACM 23 (1980) ， 17 〜 19; T . J • Sager , 
CACM 28 ( 1985 )，523 〜 532, 29 ( 1986 )，557； B . S . Majewski , N . C . Wormald , 
G . Havas , 以及 Z * J . Czech , Comp . J . 39 (1996) ， 547 〜 554; Czech，Havas 和 Majewski , 
Theoretical Comp . Sci . 182(1997) ， 1 〜 143。关于完全散列函数的理论极限，也请参 
见 J • Korner 和 K . Marton , Europ . J . Combinatorics 9 (1988) ， 523 〜 530。 

当然，这个方法有一个严重的缺陷，因为这张表的内容必须是预先知道的；增多 
一个键码都可能使一切崩溃，以致几乎需要从0开始。如果我们放弃惟一性的思 
想，允许不同的键码产生相同的 /( K ) 值，而且在计算了 /( K ) 之后，再使用一种专 
门的方法解决任何二义性，就可以得到一个更多样化的方法。 

这些考虑导致了通常称做散列或散列存储技术的一类流行的查找方法。动词 
“散列”意味着把某些事物剁碎或把它弄得乱七 八糟; 散列的思想是把键码的某些内 
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6.4 散列 


容打乱，并且使用这种部分的信息作为查找的基础。我们计算一个散列函数 / i ( K ) 
而且使用这个值作为查找的开始地址。 

生日谇论告诉我们，很可能有不同的键码&关散列成相同的值 h ( K t ) = 

这种情况称作 冲突， 而且若干有趣的方法已被想出来处理冲突问题。为了 

使用一个散列表，一个程序员必须作两个几乎独立的决定：必须选择一个散列函数 
/1(^)和解决冲突的方法。现在我们依次考虑这个问题的两个方面 D 

散列函数 为使事情更加明显，我们在这一节始终假定，散列函数最多取 M 个 
不同的值，且对于所有的键码 K 

0< h ( K ) < M (1) 

实际上出现在真正文件中的键码，通常都有大量的冗余性；我们必须小心寻找一个 
散列函数，它拆散几乎相同的成群的键码，以便减少冲突的个数。 

从理论上说，不可能定义这样一个散列函数，它由实际文件中的非随机数据建 
立随机的数据。但实际上，通过使用如同在第三章讨论的简单算术运算，不难产生 
出随机数据的一个相当好的拟态。而且事实上，通过进一步利用实际数据的非随机 
性质，来构造出一个比真正随机的键码还少产生冲突的散列函数，我们常常甚至可 
以做得更好。 

例如，考虑在一台十进制计算机上的10位数字键码的情况。 一 个可考虑的散 
列函数是，比如说，命 M 二1000,以及命 / i ( K ) 是从20位数字的乘积 KXK 的接近 
于中间的某处选出的三位数字。这似乎将产生出在000〜999之间相当好的散开的 
值，而且冲突概率较低。事实上，通过实际数据的实验表明，假定键码中没有大量的 
前导或后尾的0,这个“平方取中”的方法并 不坏; 但恰如我们在第三章中发现的，平 
方取中的方法不是一个特别好的随机数生成程序。还有更安全和更明智的处理方 
法 。 

对典型文件所作的广泛实验已经表明，有两大类散列函数十分好。一是以除法 
为基础的，而另 一 是以乘法为基础的。 

除法方法特别 容易； 我们只需使用模 M 的 余数： 

h ( K ) = K mod M (2) 

在这种情况下， M 的某些值显然比其它值要好得多。例如，如果 M 是一个偶数，则 
当 K 是偶数时 / i ( K ) 将是偶数，当 K 是奇数时， / i ( K ) 也是奇数，在许多文件中这将 
导致相当大的偏向。若 M 是计算机基数的乘方，那将是更坏的，因为 K mod M 将 
仅是 K 的最低位上的一些数字（而同其它数字无关）。类似地，我们可以论证， M 大 
概也不应是3的 倍数； 因为如果诸键码都是字符的，则两个彼此仅仅是字母排列不 
同的键码，在数值上可能仅仅差3的一个倍数（这是由于 2 2w mod 3二1和 10 ”mod 3 

=1而出现的现象）。 一 般地说，我们要避免能整除 r k ± a 的 M 值，其中々和 a 是较 
小的数且 r 是字符集合的基数（通常 r = 64,256 或100)，因为对这样一个 M 值求 
模的余数，在很大程度上只是键码中数字的简单叠加。这样一个考虑提示我 们选择 
M 为一个素数 使得对于小的々和 a ，± a (modulo M )。 已经发现，这种选择在大 
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多数情况下都是十分令人满意的。 

例如，在 MIX 计算机上，我们可以选择 M = 1009,通过序列 

LDX K rX — K 


ENTA 0 rA— 0 (3) 

DIV = 1009 = rX ^~ K mod 1009 

计算 h ( K ) 0 

乘法的散列方案也同样容易做出，但要稍难描述些，因为我们必须想像是对分 
数进行运算而不是对整数。设 w 是计算机字的大小，对于 MIX, 它通常是 10 10 或 
2 3 G ; 我们可以把整数 A 当作是分数 A / w , 这里我们想像小数点位于这个字的左边。 
这方法就是来选择与 w 互素的某个整数常数 A ，而且命 


h ( K ) 




mod 1 



(4) 


在这种情况下，我们通常设 M 在一台二进计算机上是2的乘方，于是 / i ( K ) 由乘积 
AK 的较低一半的一些前导二进位组成。 


在 MIX 代码中，如果我们设 M = 2 m 且采用二进制，则乘法散列函数就是 

LDA K rA — K 


MUL A rAX —AiC 

ENTA 0 rAX<- AK mod w ⑸ 

SLB m rAX 的左移 m 个二进位 

现在 A ( K ) 出现在寄存器 A 中。由于 MIX 的乘法和移位指令相当慢,故这个序列恰 
巧花费和 （3) —样长的 计算; 但是在许多机器上乘法比除法要快得多。 

在某种意义下这个方法可以•认为是 （3) 的推广，因为例如我们可以取 A 为 wl 
1009的一个近 似值; 乘以一个常数的倒数，通常要比除以该常数更快些。注意， （5) 

几乎就是“平方取中”方法，但有一点重要的 区别： 我们将看到，乘以一个适当的常数 
有许多可论证的好性质。 

乘法方案好的特征之一在于，当在 （5) 消除寄存器 A 时，不损失 信息； 在 （5) 完 
成之后，仅仅给定 rAX 的内容，即可再次确定 K 。 原因在于 A 与 w 互素，所以欧几 
里得算法可用来求一常数，使得 AA^ mod w = 1; 这意味着 K = (A'(AK mod 
w))mod w 。 换言之，如果 /( K ) 表示在 (5) 中的 SLB 指令之前寄存器 X 的内容，则 

Ki ^ K 2 意味着 /(KJ 7^ f ( K 2 ) (6) 

当然, /( K ) 在0到 ^-1 的范围内取值，所以它不像一个散列函数那样好，但作为 
一 个扰乱函数是 非常有用的。所谓扰乱函数就是满足 （6) 和趋向于把键码随机化的 
一个函数。如果键码的次序无关重要，则在同 6 . 2.2 小节的树查找函数相联系时， 
这样一个函数可能是非常有用的，因为当键码以递增的次序进人树时，它消除了退 
化的危险性。（参见习题 6.2. 2— 10) 0如果实际的键码的二进位有偏向时，则一个 
扰乱函数在同 6.3 节的数字树查找算法相联系时也是有用的。 

乘法散列方法的另一个特征是，它很好地利用了在许多文件中存在的非随机 
性。实际的键码集合通常有一种算术级数的倾向，其中丨尺，尺+ 3，尺+ 23，一，尺+ 
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W 全都出现在文件中；例如考虑像丨 PARTI ， PART 2 , PART 3 丨或者丨 TYPEA , TYPEB , 

TYPEC 1 这样的字符名称。乘法散列方法把一个算术级数转换成不同散列值的近似 
的算术级数/1(尺），/1(尺+ 3)，/1(尺+2^)，…，同时减少在随机状态下我们所预期 

的冲突个数。除法方法也有同样的性质。 

图37在一种特别有趣的情况下，说明了乘法散列的这个方面。假定 A / w 近似 


0 • - T 

0 1 2 3 4 5 6 7 8 9 10 II 12 13 /I 



m 37 斐波那契散列 


地是黄金比 + _1 = (W - 1)/2 = 0.6180339887; 则相继的值 / i ( K ) ,/ i(K + 1) ,/ i(K + 
2) ……和相继的散列值 / i ( O ), 6(1) ,/i (2)，…有相同的特性，这提示了下面的 实验: 
由线段 [0. .1] 开始，逐次地标岀点, |2丰叫丨,13丰 _1 丨，…，其中 U 丨代表： c 的小 
数部分（即： r - U 」， 或 : r mod 1)。如同在图37中所示，这些点彼此之间分得 很开; 
事实上，每个最新增加的点都落入最大的剩下的区间之一，而且按黄金比分割它[这 

个现象首先是由 J . Oderfeld 猜测，并且由 S . Swierczkowski 证明的， Fundamenta 

Math . 46 (1958),187 〜189]。在这个证明中，斐波那契数起着重要作用]。 

黄金比的这个值得注意的性质实际上原来是由 Hugo Steinhaus 猜测并且首先 
由 Vera Tur 6 n S 6 s 证明的 [Acta Math ■ Acad. Sci . Hung .8(1957) ,461 〜 471 ; Arm . 
Univ . Sci . Budapest . Eotvos Sect . Math • 1( 1958) ， 127 〜 134]: 

定理 s 设 e 是任意无理数。当 把点丨 dU2dl ，…， hdl 放置在线段 [ o .. i ] 中 
时，形成的 n+l 个线段至多有三种不同的长度。而且，下一点 Un + l)dl 将落在最 
大的现存线段之 一中。 ■ 

于是，点 0 U 2 ⑴，…， U ⑴非常均匀地散列在0〜1之间。如果 e 是有理的，则 
同样的定理也成立，但我们必须对长度为0的线段给出一个适当的解释，这长度为0 
的线段是在72大于或等于0的分母时岀现的。定理 S 的一个证明，连同关于这种 
状态的基础结构的一个详细分析，出现于习题8 中； 可以证明，具有给定长度的诸线 
段是以先进先出的方式建立和破坏的。当然，某些 e 比其它的0更好，因为例如接近 
于0或1的一个值将以许多小段和一大段开始。习题9证明，在0与1之间的所有 
数6当中，两个数和 = 导致“最一致地分布”的序列。 
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上面的理论提示了 斐波那契散列 ，其中我们选择常数 A 作为最接近于必- 1 
的与 m 互素的整数。例如，如果 MIX 是十进计算机，则取 


A = + 61 80 33 98 87 ⑺ 

这个乘数将非常好地撒开像 LIST1 , LIST2 , LIST3 这样的字符键码。但注意在第四 

个字符位置中有一个算术级数的情况，如同在键码 SUM1U , SUM2 U ,S0M3L1 中 那样: 

其效果就像以 0= il 00 A /^| = .80339887 代替 0= .6180339887 = A/w 来使用定 

理 s 那样。尽管这个0值不完全像彡- 1 那样好，但得到的结果仍然是不错的。另一 
方面，如果这个级数出现在第二个字符位置上，如同在 Muuu ， A 2 uuu ， 

A 3 uuu 中那样，则有效的 0 是。 .9887, 而这可能太接近于 1 了。 

因此，我们通过用像 


A = + 61 61 61 61 61 

这样一个乘数代替(7)，可以做得 更好； 这样一个乘数将分散在任何字符位置中互异 
的连续的键码序列。不幸的是，这个选择遇到了另外的问题，有点类似于除以^±1 
时的困难 ：诸如 XY 和 YX 这样的键码将趋于散列到相同的单元！摆脱这个困难的一 
种方式，是更仔细地考察定理 S 背后的基础 结构； 当键码的级数很短时，则起作用的 
仅仅是0的连分数表示的开头几个部分商，而且小的部分商对应于好的分布性质。 
因此我们发现 e 的最好的值位于范围 

1 31 3 4 ? 7 3 

T <0<^ ， T <0< y , y <0< y ,^<0<f 

之中。可以找到 A 的一个值，使得它的每个字节都位于一个好的范围之中，而且不 
太接近于其它字节的值或这 些值的补，例如， 

A = + 61 25 42 33 71 ⑻ 

可以推荐这样一个乘数。（关于乘法散列的这些思想大部分是由 R . W . Floyd 给出 
的）。 

一个好的散列函数应满足下列两个要求。 

a ) 它的计算应该是非常快的。 

b ) 它应该使冲突极小化。 

性质 U ) 和机器有关，而性质 （ b ) 则与数据有关。如果诸键码是真正随机的，则我们 
可以从其中简单地抽出一些二进位，并使用这些二进位作为散列 函数; 但在实践中， 
我们几乎总是需要有一个依赖于键码的所有二进位的散列函数，以便满足 ( b )。 

至今我们已经考虑了怎样散列一个字的键码。多字的或可变长的键码可以通 
过上述方法的多精度扩充来处理，但是一般宜于把几个字组成一个单个的字，然后 
如上面那样进行单个乘法或除法，这样可以提高速度。这个组合可以通过 mod w 
加法或通过在一台二进计算机上的“异或”来 完成； 这两个操作都有这样一个优点， 
即它们都是可逆的，也就是，它们都依赖于两个变元的所有二进位，而且由于异或避 
免了算术溢岀，它有时是更可取的。然而，这两种操作是可交换的，因此（ X ， Y ) 和 
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( Y ， X ) 都将散列成相同的 地址； G . D . Knott 已经建议在进行加法或异或之前作一 
个循环移位以避免这个问题。 

散列/个字符或/个字键码的一个甚至更好的方法是来计算 

h ( K ) — { h \{ x \) + Zi 2 (: c 2) + …+ h L { x L ))mod M (9) 

其中每个\是一个独立的散列函数。由 J . L . Carter 和 M . N . Wegman 于1977年引 
入的这一思想，当每个: r , 是单个字符时特别有效，因为然后我们可以使用对于每个 
h } 的一个预先计算的数组。这样的数组使乘法成为毫无必要的，而且如果 M 是2 
的一个乘幂，我们通过以异或代替加法而避免 (9) 中的除法。因此 （9) 肯定满足性质 

( a ) 。而且， Carter 和 Wegman 证明了如果\是随机选择的 ，则不管输入数据如何， 

性质 （ b) 都将成立 （参 见习题72)。 

已经提岀了许许多多的散列方法，但是还没有证明出这些方法中哪一个比上面 

叙述的简单的除法和乘法更优越。关于某些其它方法及其用于实际文件时性能的 
详细统计，见林耀森、袁师德以及 （ M . Dodd ), CACM 14(1971),228 〜 239。 

在已经试验过的所有其它散列方法中，也许最有趣的是一项以代数编码理论为 
基础的 技术; 其思想类似于上面的除法方法，但我们除以一个多项式 modulo 2而不 
是除以一个整数（如同在 4.6 节所观察到的，这个操作类似于除法，就如同加法类似 
于异或那样）。对于这个方法， M 应该是2的一个乘方，比如说 ， M = 2 m , 而且我们 

利用一 ‘个 m 次多项式 ) = :^ + +…+ fo 。 一 ^个” 个数字的二进键 

码尺=(々„-广.々 1 々 0 ) 2 可以看作是多项式 K ( x ) = t — +…+ + 々 o , 而且 

利用多项式算术运算 modulo 2计算余式 

K ( x ) mod P ( x ) = — jx 771-1 + …+ h\X + h 0 

则 h ( K ) = ( h m - l - h l h 0 ) 2 o 如果适当地选择 PU )， 则这个散列函数即可以保证 


避免在近乎相等的键码之间的冲突。例如，如果 n = 15 ，m = 10, 且 



( 10 ) 


则可以证明，每当和是两个不同的在少于七个二进位位置中互异的键码时, 


不等于 A ( K 2 )。 （关于这个方案的进一步信息见习题7;当然它更适合于以 
硬件或微程序设计实现，而不适合于用软件实现。） 


当调试一个程序时，使用一个常数散列函数 / i ( K )=0 通常很方便，因为所有的 


键码都将被存储在 一起; 稍后可以换成一个有效的 h ( K ) 


通过“拉链"解决冲突 我们已经注意到，某些散列地址由于为多个键码所共 
享，可能要出麻烦。解决这个问题的也许最显然的方法，是保持 M 个链接表，对于 
每个可能的散列码用一个表。每个记录应包括一个 LINK 字段，而且还将有 M 个表 
头，比如说以从1〜 M 来进行编号。在散列了键码之后，我们只需在号码为 h ( K ) 
+ 1的表中进行顺序查找。（参见习题6.1-2。这一情况非常类似于多重表的插入 
排序，即程序 5.2.1 M )。 

图38示出了当 M = 9 时，对于七个键码的序列（这就是挪威文中的数1〜7)， 
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K = EN , TO ， TRE , FIRE ， FEM ， SEKS,SYV 


HEAD[1]: 
HEAD [2] : 
HEAD [3] : 
HEAD [4] : 
HEAD [5 ] : 
HEAD [6] : 
HEAD [7] : 
HEAD [8] : 
HEAD [9] : 




图38分开的拉链 

这一简单的拉链方案，这些键码的散列码分别为 

h ( K ) + 1 = 3,1,4,1,5,9,2 (12) 

第一个表有两个元素，而另外有三个表是空的。 

拉链十分快，因为这些表都很短。如果把365人聚集在一个房间里，则大概将 
有许多对的人有相同的生日，但是具有任何给定生日的人的平均数将仅仅是1! 一 
般说来，如果有 iV 个键码和 M 个表，则表的平均大小是 iV / M ; 于是散列使顺序查 
找所需的平均工作数量大约减少了一个因子 M 。 （习题34给出了一个精确的公 
式。） 

这个方法是我们以前讨论的技术的直截了当的组合，所以不需要描述对于拉链 
散列表的详细算法。以键码的顺序来保持个别的表通常是一个好的想法，它使得插 
入和不成功的査找都能更快地进行。于是如果我们使表成为递增的，则图38的 TO 
和 FIRE 节点将互相交换，而且所有的 A 链都将被指向一个空记录的指针所代替，该 
记录的键码为⑺（参见算法 6.1 T )。 或者，我们可以利用 6.1 节中讨论的“自组织文 
件”的 概念; 把诸表按各键码最新出现的时间排序，而不是按键码的值排序。 

为了保证速度，我们将乐于使 M 相当大。但当 M 很大时，许多表都将是空的， 
而且 M 个表头的许多空间都将浪费掉。这就提示了另外一个当记录很小时可用的 
方法.•我们可以把表头和记录的存储重叠起来，只提供 M 个记录和 M 个链接而不 
是 iV 个记录和 M + N 个链接所需的空间。有时有可能对所有数据作一趟扫描，找 
出哪一些表头将被使用，然后作另一趟扫描把所有的“溢岀”记录都插入到空的位置 
上。但是这往往是不实际的或不可能的，我们宁可用一种每个记录只处理一次，即 
只在它第一次进入系统时处理一次的技术。下面由 F . A . Williams 给岀的算法 
[CACM 2,6 (1959 年6月 ） ，21〜 24] 是解决这个问题的一种方便的方法。 

算法 C (拉 链散列表的查找和插入） 本算法在一个 M 节点的表中查找一个给 
定的键码 K 。 如果 K 不在表中，且这个表不满，则插入 K 。 
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表的诸节点，以 TABLE [ Z ] 来表示，而且它们有两种不同的类型 ，即空 
的和已占用的。 一 个已占用的节点含有一个键码字段 KEY [ z _] ，一 个链接字段 LINK 
[ z ]， 以及可能还有其它的字段。 

这个算法利用了一个散列函数 / z ( iC )， 还使用一个辅助变量只来帮助寻找可用 

空间。当表空时，尺 = M +1, 而当进行插入时，对于在 R ^ j ^ M 范围中的所有 j ， 
TABLED ] 是已占用的。约定 TABLE [0] 总是空的。 

C 1 •[散列]置 f — 以幻+ 1。（现在 

C 2 •[有一个表吗？]如果 TABLED ] 是空的，则转到 C 6。 （否则 TABLED ] 已占 

用；我们将考察在这里开始的已占用节点的表列）。 

C 3 •[比较]如果 K = KEY [2]， 则这个算法成功地结束。 

C 4 •[进到下一个]如果 LINK [ z ]#0, 则置彳― LINK [ f ] 并转回到步骤 C 3。 

C 5. [找空节点](这次查找不成功，要找表中的一个空位置。）尺减值一次或多 

次直到找到使得 TABLE [尺]为空的尺值为止。如果尺=0,则这个算法以 
溢出（没有空节点） 结束； 否则置 LINK [ i ] — 只 ， f — 尺。 




图39拉链散列表的查找和插人 

C 6 •[插入新键码]标记 TABLED ] 为一个已占用的 

节点，并作 KEY[?_]—K 和 LINK [ i ]— 0。 | 

这个算法允许若干表结合起来，使得在诸记录插入 
到表中之后，就不必移动了。例如，见图40,其中 SEKS 
出现在含有 TO 和 FIRE 的表中，因为后者已经插入到位 
置9上。 

为了看看这个算法同这一章的其它算法比较时情况 
如何，我们可以写出下列 MIX 程序。以下分析指出，已占 
用单元的表一般很短，而且程序设计已经考虑到这一点。 

程序 C (拉链散列表的查找和 插入） 为方便起见， 


TABLE [ I ] 

TABLE [2] 

TABLE [3] 

TABLE [4] 

TABLE [5] 

TABLE [6] 

TABLE [7] 

TABLE [8] 

TABLE [9] : 

图 40 结合起来的拉链 
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假定键码仅有三个字节长，且节点被表示 如下 : 


空节点 


已占用节点 


— 

1 

0 

0 

0 

0 


+ 

1 

LINK 

1 

1 1 

KEY 

1 1 


( 13 ) 


假定表的大小 M 是 质数 ; TABLE 

LINK[ 2 ] 和/或 R 。 


01 KEY EQU 
02 LINK EQU 


] 被存储在 TABLE + i 之中 ， rll 


03 


04 


3:5 


0:2 


START LDX 


K 


ENTA 0 


1 


1 


i ,rA 


K;rI2 


CL 散列 


05 


06 


07 


08 


DIV 


STX 


ENT1 


M 




1 ( 0 : 2 ) 


* 


INC1 1 


1 


1 


1 


1 


h(K) 



09 


LDA 


K 


1 


21 


22 


23 


24 


25 


10 

LD2 

TABLE ， 1(LINK) 

1 

C2 . 有一个表否？ 

11 

J2N 

6F 

1 

如果 TABLE[i] 为空则转到 C6 

12 

CMPA 

TABLE , 1(KEY) 

A 

C3. 比较 

13 

JE 

SUCCESS 

A 

如果 K = KEY[f] ， 则转出 

14 

J2Z 

5F 

A - Si 

如果 LINK[i] =0, 则转到 C5 

15 4H 

ENT1 

0,2 

C-l 

C4 .进到下一个 

16 

CMPA 

TABLE,1(KEY) 

C - 1 

C3. 比较 

17 

JE 

SUCCESS 

c-l 

如果 K = KEY [ 彳]则转出 

18 

LD2 

TABLE,1(LINK) 

C-l - S2 


19 

J2NZ 

4B 

C-l - S2 

如果 LINK[f ]/0 ,则前进 

20 5H 

LD2 

R 

A-S 

C5. 找空节点 


DEC2 1 


丁 


R 


S 


LDX 


JXNN 


TABLE, 2 


- 2 


丁 



丁 


J2Z 


OVERFLOW 


A - S 


ST2 TABLE,1(LINK) 


A - S 


重复直到 TABLE [ 只] 为空 

如果未剩下空节点则转出 

linkU ]— 只 


26 


ENT1 0,2 


A - S 


R 
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27 

ST2 

R 

A - S 

修改内存中的尺 

28 6H 

STZ 

TABLE,1(LINK) 

1 - s 

C6. 插入新的键码 

29 

STA 

TASBLE,1(KEY) 

1 一 s 

KEY[f ] —K | 


这个程序的运行时间依赖于 

C =查找时所探査的表的项数 

A =[初始探查发现一个已占用的节点] 

S = [查找成功] 

了=寻求可用空间时所探查的表项数 

这里 S = S 1 + S 2, 其中如果第一次试验成功则51 = 1。程序 C 的查找阶段总 

共的运行时间是(70 + 2必+ 17-33 + 251)、而当5 = 0时一个新键码的插入还需 
花费附加的 （8 A +4 T + 4) w 。 

假设这个程序开始时表中有 N 个键码，而且设 

a 二 N/M -这个表的负载因子 (14) 

如果散列函数是随机的，则在一次不成功的查找中 A 的平均值显然是 a ， 而且习题 
39证明在一次不成功的查找中 C 的平均值是 




N 



— 1 — 


2N\ 

W 


^ 1 



e 


2a 


一 1 一 2a 


4 


(15) 


于是，当这个表为半满时，在一次不成功的查找当中所作探查的平均次数大约是 
j ( e +2) 〜 1.18; 甚至当这个表快要完全满时，在插入最后的项之前所作探查的平 

均次数，将仅仅大约是 j ( e 2 + 1)^2. 10。如同在习题40中所证明的那样，标准差 

也小。这些统计证明，当散列函数是随机的时 ，即使算法偶尔允许诸表结合起来，这 
些表仍很短。 如果散列函数是坏的或我们极不走运，当然 C 可以像 N 那样大。 

在一次成功的查找中，我们总有 A = 1。在一次成功的查找期间探查的平均次 
数，可以计算 如下： 若假定每个键码都同等可能，则求 C + A 对前 N 次不成功的查找 
之和并除以 N 。 于是我们得到 


Cn 


N 



C\ 



k 


0<^<N V 


M 





L N - 1 

4 M 





e 


2a 


—1 — 2a 


Sa 



(16) 


作为在一次随机的成功查找中探査的平均次数。甚至从一个满的表中找岀一个项, 
平均也才仅仅需要 1.80 次探查！类似地（见习题 42)， S 1 的平均值是 



1 - - 1)/ M ) ^ 1 - 


2 


a 


(17) 
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乍一看去，步骤 C 5 可能显得很低效，因为它要顺序地查找一个空位置。但是 

实际上当一个表正被构造时，在步骤 C 5 中所作的表探查的总数决不超过表中的项 

目数；所以我们每作一次插人平均至多需要一次探查。习题41证明，在一次随机的 
不成功的查找中 T 近似于 ae a 。 

有可能对算法 C 进行修改，使得任何两个表都不结合在一起，但是这样一来记 
录就要搬家了。例如，考虑在我们刚要把 SEKS 插人到位置 9 之前，图40的 状况； 为 
了保持表是分开的，必须移动 FIRE ， 而且为了这一目的，还要发现哪个节点是指向 
FIRE 的。如同 D . E . Ferguson 所建议的，通过散列 FIRE 和往下查找它的表，我们无 

需提供两路链接就能解决这个问题，因为这些表都是短的；习题34证明，当诸表不 
相结合时，平均的探查次数，减少成 


C ； 




N(N - 1) 


2M 


2 





2 


(不成功的查找) 


(18) 


Cn 



N - 1 
"2 M 




a 


2 


(成功的查找) 


(19) 


对于 （15) 和 （16) 这个改进尚不足以构成改变这个算法的理由。 

另一方面 , Butler Lampson 已经发现，如果我们避免把这些表结合在一起，贝 lj 在 
使用拉链方法时，大多数用于链接的空间都可以节省。这导致了在习题13中讨论 
的一个有趣的算法^ Lampson 的方法在每一项中引入一个标志位。因此使得在一 
次不成功的查找中所需平均探查数稍微减少，从 （18) 减少成为 



1 - 


M 


+ 


N 




M 






(180 


当 N > M 时，可以使用分开的拉链，所以在这种情况下溢出不是一个严重的问 
题。当诸表如同在图40中和算法 C 中那样结合起来时，我们可以把额外的一些项 
目链接成一个辅助的存 储池： L . Guibas 已经证明，为插人第 （ M + L + 1) 项需作的探 


查平均次数为丨 L/2M +f l((l + 2/M) 



1/2。然而，通常喜欢使用把头 


个 


冲突的元素放进一个辅助存储区域的另一方案，并且仅当这个辅助区域已经满时才 
允许诸表结合在 一起； 见习题43。 

以“开式寻址法”解决冲突 解决冲突的另一个方法，是完全撤销链，简单地逐 

个考察表的各项，直到或者发现键码 K 或者发现一个空的位置。这个思想就是确 

定某种规则，通过它，每个键码 K 确定一个“探查序列”，即表中的一系列位置，每当 

要插人或查出 K 时这些位置即被探查。如果我们使用由 K 确定的探查序列，在查 

找 K 时，遇到一个空缺未用的位置，则可以得出结论， _ K 不在表中，因为在每次处理 

K 时用的是同一个探查序列。此类通用的方法被 W . W * Peterson 称作开式寻址法 
[IBM J. Research & Development 1 ( 1957) , 130 


146 
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称为线性探查的最简单的开式寻址方案，使用如同下列算法中那样的循环探查 

序列 

h ( K )， h ( K ) - 1，…， 0 ，M - 1 ，M - 2,…， / i ( K ) + 1 (20) 

算法 L (线性探查和插入）这个算法在有 M 个节点的表中寻找一个给定的键 
码 K 。 如果 K 不在表中且表不满，则插人 iC 。 

对于 0<;<M ，以 TABLE[i] ， 表示表的节点，它们有两种不同的类型，即空的和 
已占用的。一个已占用的节点包含称为 KEY[f] 的一个键码，可能还有其它的字段。 
一个辅助变量 N 用以记住占用了多少个 节点； 把 N 看做是表的一部分，而且当插 
人一个新键码时， JV 的值增1。 

本算法利用一个散列函数 / i ( K )， 并使用线性探查序列 （20) 查表。对该序列的 
修改将在下面讨论。 

L1 •[散列 ]置 i — h ( K )。 (现在 0<z<M 。） 

L2 •[比较]如果 TABLE[i] 为空，则转到 L4 。 否则如果 KEY[ z ] = K ,则这个算 

法成功地结束。 

L3. [进到下一个]置 i — i -1; 如果现在 f <0, 则置 i — f + M 。 转回到步骤 

L 2 0 

L 4 •[插入](查找是不成功的）如果 N = M -1, 则算法以溢出结束。（这个算 

法认为当 N = M ~ l 时，而不是当 N 二 M 时表是满的，见习题15)。否则 

置 N —N + 1，标记 TABLE [ i ] 为已占用的，且置 KEY [ f ] — K 。 ■ 

图41示岀，当分别使用散列码2,7，1，8,2,8，1，通过算法1插人七个示例性键 

码 （ 11) 时发生的 情况； 最后三个键码， FEM、SEKS 和 SYV, 已经从它们开始的位置 

/ i ( K ) 被转移了。 


0 

1 

2 

3 

4 


6 



FEM 

TRE 

EN 


SYV 

SEKS 

TO 

FIRE 


图 41 线性开式寻址法 

程序 L (线性探查和插入）这个程序处理全字长的 键码； 但不允许值为0的 
键码，因为0被用作标志表中的一个空位置。（或者，我们可以要求键码是非负的， 
让空位含-1)。假定表的大小 M 是素数，而且对于 0< i<M 把 TABLE [ i ] 存在单元 
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TABLE + f 中。为了加快内循环，假定单元 TABLE - 1包含0。假定单元 VACANCIES 包 
含值 M -1- N ; 且 rA = K,rIl = i 0 


为了加速这个程序的内循环，已经从循环中撤销了测试 “ f <0” ，而仅仅保留了 


步骤 L 2 和 L 3 的必要部分。查找阶段的总共运行时间为 （7 C + 9 E + 21 
在不成功查找之后的插人额外增加 8 m 。 


U 


而 


01 

START LDX 

02 


ENTA 

03 


DIV 

04 


STX 

05 


ENT1 

06 


LDA 

07 


JMP 

08 

8H 

工 NCI 

09 

3H 

DEC1 

10 

2H 

CMPA 

11 


JE 

12 


LDX 

13 


JXNZ 

14 


JIN 

15 

4H 

LDX 

16 


JXZ 

17 


DECX 

18 


STX 

19 


STA 


K 

0 

=M = 

* 十 1(0:2) 

* 

K 

2F 
M + 1 
1 

TABLE , 1 
SUCCESS 
TABLE , 1 
3B 
8B 

VACANCIES 

OVERFLOW 

1 

VACANCIES 
TABLE, 1 


1 LI . 散列 

1 
1 
1 

1 i—h(K) 

1 

1 

E L 3. 进行到下一个 

C + E — l — 1 

C + E L 2. 比较 

C + E 如果 iC 二 KEY [ i ] 则转出 

C + E-S 

C + E - S 如果 TABLE [ i ] 非空，则转 L 3 


E + l - S 

如果 f = -1， 则以转 L 3 

1 -S 

L 4. 插入 

l-s 

如果 N = M -1， 则溢出，并转出 

1 -S 


l-s 

iV 增加1 

1 -S 

TABLE [ i]^-K | 


如同在程序 C 中那样，变量 C 表示探查的次数， S 指出这次査找是否成功。我们可 

以忽略变量 E , 它仅当对 TABLE [ -1] 已经作了一次假的探查时为1，因为它的平均 
值是 (C - 1)/ M 。 

线性探查的经验表明，在表开始变满之前，本算法工作得十 分好; 但是这个过程 
终于减慢下来，而且长时间拖拉的查找逐渐地频繁起来。这只要考察19和 N 
= 9的假设的散列表，便可以明白这一特性的 原因： 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 

( 21 ) 


磁带阴影的方格表示已占用的位置。有待插入到表中的下一个键码 K 将进入 
到十个空的空间之一，但是这些空位并不是同等可 能的； 事实上，如果 ll ^ h ( K )^ 
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15 ， K 将被插入到位置11中，同时仅当 h ( K )= S 时它才进入到位置8。因此位置 
11的可 能性， 5倍于位置8;长的表列倾向于变得更长。 

这个现象本身不足以看成是线性探査的一个相对拙劣的特性，因为在算法 C 中 
也出现类似的情况。（一个长度为4的表列在算法 C 下，其增长的可能性是长度为 
1的表列的4倍）。当在 (21) 中像4或16这样的单元被填入内容时，真正的问题岀 
现了； 于是两个分开的表列组合起来，而在算法 C 中的表列一次决不增长一步以上。 
因而，当 N 趋于 M 时，线性探查的性能迅速退化。 

我们将在这一节的稍后证明，算法 L 所需要的平均探查次数近似于 



(不成功的査找) 


(成功的查找) 


( 22 ) 

(23) 


其中 a = N/M 是该表的负载因子。所以当表的满载程度低于75%时，即使程序 C 
处理的是不切实际地短的键码，程序 L 仍然几乎和程序 C 一样快。另一方面，当 a 
趋于1时，对于程序 L 我们可以作的最好的评价是，它缓慢但稳当地运行着。事实 
上，当 N = M ~1 时，在表中仅有一个空位置，所以在一次不成功的查找中平均的探 
查次数是 （M +1)/2; 我们也将证明当表满时，在一次成功的查找中平均的探查次数 


近似于^ 

当表快满时，堆积现象使线性探查变得代价髙昂，而如果连续的键码值丨 
+ l ， iC + 2，一 | 出现的可能性很大，则使用除法散列更加剧了这种堆积现象，因为这 
些键码将有连续的散列码。乘法散列将令人满意地破坏这种堆积现象。 

防止连续散列码冋题的另一^个方法是在步骤 L 3 中置 i — i — c ， 而不是 i — i — 
lo c 为任何正值都行，只要它与 M 互素，因为在这种情况下，探查序列仍将考察表 
中每一个位置。由于对于 i <0 的测试，这样一种变化将使得程序 L 稍微慢些。减 
c 而不是减1并不改变堆积现象，因为距离为 c 的记录组集仍将 形成； 等式 （22) 和 
(23) 仍适用，但是连续的键码 iK,K + l ， K + 2,…丨的出现现在实际上是一种帮助， 
而不是一个障碍。 

尽管 c 的一个固定值并不减少堆积现象，但通过命 c 依赖于 K ， 我们可以很好 
地改进这一情况！这一思想导致了对算法 L 的一项重要的修改，这是由 Guy de Bal - 
bine 首先发现的 [_ Ph . D . thesis , Ca/i'/. Inst , of Technology (1968), 149 〜 150] 。 

算法 D (使用两次散列的开式寻址法） 这个算法和算法 L 几乎一样，但它以 
稍微不同的方式，通过使用两个散列函数和来探查表。和通常一样， 

产生0与 M -1 之间（含0和 M -1) 的一 个值; 但 / z 2 0 O 必须产生与 M 互 
素的1与 M -1 之间的一个值(例如，如果 M 是素数，则 A 2 ( K ) 可以是1和 M -1 
之间的 任何值 (包括1和 M -1 在 内）； 或者如果 M = 2' 则 / i 2 ( K ) 可以是1和 
-1 之间的任 何奇数 值）。 
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m •[第一次散列]置 ^ a 1 ( k ) 0 

D2. [第一次探查]如果 TABLE[f] 是空的，则转到 D6 。 否则，如果 KEY[i] = 

K ， 则算法成功地结束。 

D3 •[第二次散列]置 c ^ h 2 ( K ) 0 

D 4 .[前进到下一个]置 i — i _ c ;如果现在 f < 0 ， 则置 i — i + M 0 

D5. [比较]如果 TABLE[f] 是空的，则转到 D6 。 否则如果 KEY[i] = K ，则这个 

算法成功地结束。否则转回 D 4。 

D 6 .[插人]如果 N = M -1， 则这个算法以溢出结束。否则置 iV—JV + 1, 标 

志 TABLE[i] 已占用，且置 KEYhl—K 。 ■ 


关于计算 MK ) 的若干可能性已被提出。如果 M 是素数，且 h x ( K ) = K mod M , 
则我们可以设 h 2 ( K ) = 1 + (K mod (M - 1)); 但由于 M - 1 是偶数，因而命 
h 2 ( K ) = 1 + (K mod ( M -2)) 将更好。这提示选择 M 使得 M 和 M - 2好像1021和 
1019那样是“孪生素数”。另外，我们可以置心（幻=1+(以 /^」 mod ( M - 2))，因 
为商 LK / M 」 作为计算 /^( K ) 的副产品，可在一个寄存器中得到。 

如果 M = 2' 且我们正在使用乘法散列，则只需左移饥个以上的二进位和 
“或”上一个1,即可计算岀 A 2 ( K )， 于是代码序列 （5) 之后应接上 


ENTA 0 清 rA 

S LB 772 rAX 左移 m 位 （24) 

OR = 1 = r A — r A V 1 

这要比除法方法更快些。 

在上面提议的每一项技术当中，在下述意义下和 A 2 ( K ) 是“独立的，，，即 

不同的键码对于 h 和 / i 2 将有相同的值的概率是 1/ M 2 而不是 1/ M 。 经验测试表 

明，具有独立的散列函数的算法 D 的特性，基本上也就同当键码随机地插人到表中 
时所需要的探查次数 无异； 实际上没有如同算法 L 中那样的“拥挤”或“堆积”。 

如同 Gary Knott 于1968年所建议的那样，也有可能让 / i 2 ( K ) 依赖于 h ^ K )； 

例如，如果 M 是素数，则我们可以命 


1 如果 h ^ K ) = 0 

\m - h ,( K ) 如果 h x ( K ) > 0 


(25) 


这将比作另一个除法更快，但是我们将看到，它却引起一定数量 的二次堆积， 因为增 
加了两个或更多个键码走同一条通路的机会，因此需要稍多些探査。以下导出的公 
式，可用来确定在散列时所获得的好处，是否超过探査时间上的损失。 

算法 L 和 D 是非常类似的，但是也还有一定的差别，因此比较它们相应的 MIX 
程序的运行时间是有益的。 


程序 D (使 用两次散列的开式寻址法） 由于这个程序大体上很类似于程序 L ， 
因此就不加注释。 rI 2 Ec _ l 。 
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01 START LDX K 1 15 3H DEC1 1,2 C~1 

02 ENTA 0 1 16 JINN * + 2 C - 1 

03 DIV = M = 1 17 INC1 M B 

04 STX *+1(0:2) 1 18 CMPA TABLE, 1 C_1 

05 ENT1 * 1 19 JE SUCCESS C ~1 

06 LDX TABLE, 1 1 20 LDX TABLE, 1 C ~ 1 ~ S2 

07 CMPX K 1 21 JXNZ 3B C ~ 1 ~ S2 

08 JE SUCCESS \ 1 22 4H LDX VACANCIES 1 - S 

09 JXZ 4F 1-SI 23 JXZ OVERFLOW 1 - S 

10 SRAX 5 A _ SI 24 DECX 1 1 - S 

11 DIV = M- 2 = A _ SI 25 STX VACANCIES 1 - S 

12 STX *+1(0:2) A-SI 26 LDA K 1 - S 

13 ENT2 * A - SI 27 STA TABLE, 1 1 - S I 

14 LDA K A — SI 


在这个程序中的频率计数 A , C , SI ， S 2, 有与上面程序 C 中类似的解释。另一个变 
量 S 平均将是 （ C - 1)/2 。 （如果我们限制 /i 2 (K) 的范围为，比如说， 1</z 2 (K)< 

M /2, 则 B 大约将仅仅是 （ C - l )/4; 速度的这一提髙大约将不足于弥补在探查次数 
方面的显著增加。）当在这个表中有 N = aM 个键码时，在一次不成功的查找中 ， A 
的平均值当然是 a ，而在一次成功的查找中 A = 1。如同在算法 C 中那样，在一次成 

功的查找中 S 1 的平均值是 l -|(( N - l )/ M )〜 l -| a 。 探查的平均次数难以精 

确地确定，但经验测试证明以下导岀的公式同“一致探查”相当符合，即当和 
/ i 2 ( K ) 独立时，有 

Cn = n ^ (1 - a ) — 1 (不成功的查找） (26) 

C N =^^(^ +1 - H m+1 _ n ) a-'lnCl - a ) (成功的查找） (27) 

当 / i 2 ( K ) 如同在 (25) 中那样依赖于 /^( K ) 时，二次堆积使这些公式增加到 


Cn = m 十 1 _ N ~ 1 十 HiW+i _ 卜 N + 0(M _1 ) ^ (1 - a)~ l - 

a - ln(l - a ) (28) 

N _ 

Cn = 1 + H M+1 - H m+1 _ n - 2(]Vf + 1) _ (Hiw+i _ H m+1 _ n )/N + 0(N _1 ) ^ 


1 一 ln( 1 — a) 



(29) 
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图 42 通过三个开式寻址方案进行成功査找的运行时间 

在一台二进计算机上，我们可以以另一种方式来加速 / i 2 ( K ) 的计算，比如说如 
果 M 是一个大于512的素数，则以 

AND =511= rA rA mod 512 

STA * + 1 (0 ： 2) (31) 

ENT2 * c — rA + 1 

来代替行 10 〜13。这一思想（由 Belli 和 Kaman 提出 ， CACM 13 (1970) ，675〜677， 
他们独立地发现了算法 D ) 无需用任何除法就避免了二次堆积。 

已经提出许多其它的探查序列来改进算法 L ， 但看来没有一个比算法 D 优越, 
可能习题20中描述的方法除外。 

通过使用诸键码的相对次序，我们可以把算法 L 或 D 的不成功查找的平均运 
行时间减少到成功查找的平均运行 时间； 参见习题66。这个技术在不成功查找很 
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由于每次探查花费的时间比算法 L 稍少，故双散列仅当表变满时才有利。图 
42比较了程序 L 、 程序 D 以及修改后的程序 D 的平均运行时间，修改后的程序 D 包 
含二次堆积，并以下列三条指令 

ENN2 1 - M,1 c — M - i 

J1NZ * + 2 (30) 

ENT2 0 如果；= 0贝 U e — 1 

来代替行10〜13中 / i 2 0 O 的相当慢的计算。程序 D 总共花费 8 C + 19 A + B +26 

-13 S -17 S 1 时间 单位； 在一次成功的査找中 （30) 的修改大约节省这些时间单位 
中的 15( A - Sl )~7.5 a 。 在这种情况下，二次堆积比独立的两次散列更为可取。 

60 m 


(见习题44)。注意，随着表变满，即当 iV = M 时， C N 的这些值分别趋向于 H m + 1 - 
1和 H m + i _ 这比我们在算法 L 中所发现的更好些，但不如拉链方法那样好。 
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图 43 — 个编译程序典型地査找变量名的次数，诸名字按照它们 

头一次出现的次序自左到右地列出 

Brent 的思想是把算法 D 中的插入过程改变如下。假设一次不成功的査找要探 
查单元 ，… p t - i ， A ， 其中 P J = ( h 1 ( K )- jh 2 ( K))mod M , 且 TABLE [ 九 ] 为空。 

如果 ^<1 ，则我们像通常那样把 K 插入到位置 A 中； 但如果 ^>2, 则计算 = 

/ 1 2 ( 尺 0 ) ，其中 & 二 KEY [ 灿]，而且看 TABLE[(p 0 - c 0 ) mod M] 是否为空。如果为 

空，则置它为 TABLE[ / > Q ] ， 而后把 K 插入到位置如中，这增多了一步对于 Ko 的查找 

时间，但它减少了 步对于 K 的查找时间，所以结果还是改进了。类似地，如果 

TABLE [( 仇 -co) mod M] 是已占用的，而且则我们尝试 [( 如 - 2。 mod M]; 
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普遍的那些应用中很 重要； 例如，当 TEX 查找对于它的破折号规则的例外情况时， 
就使用这样一个算法。 

Brent 的变形 Richard P . Brent 已经发现了修改算法 D 的一个方法，使得当表 

变满时平均的成功查找时间保持有界。他的方法 [CACM 16 (1973),105 〜 109] 是 

以这样一个事实为基础的，即在许多应用中，成功的查找比插入要频繁 得多； 因此， 

他建议在插入一项目时，多做一些工作，包括移动表中的记录，以便减少预期的查找 
时间。 

例如，图43示出了在一个典型的 PL / I 过程中，每个标识符真正被查到的次数。 
这一思想指出，使用一个散列表记住变量名字的 PL / I 编译程序，将查找许多名字五 
次以上，但插入只一次。类似地， Bell 和 Kaman 发现，一个 COBOL 编译程序在编译 
一个程序时，使用它的符号表算法10988次，但只对该表作了 735次 插入； 就是每作 
一次不成功的查找平均大约要作14次成功的查找。有时一个表实际上仅被建立一 
次(例如，在一个汇编程序中的符号操作码表），而此后纯粹用作检索。 
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如果这也是满的，则计算 Ci = / i 2 ( KEY [^ 1 ]) 和试验 TABLE [ ( p \~ c x ) mod M ]; 等等。 
一 般地说，命 q = A 2 ( KEY [岛])且 = ( p } - kc } ) mod M ; 如果我们发现 TABLE 

[巧， J 对于使得的所有下标 J /和6是已占用的，而且如果 + 则考察 
TABLE [ f 0 , r ] ， TABLE [户 i ， r - i ] ，…， TABLE [ p r . lA ] D 如果头一个空位出现于位置 

岛，以处，则我们就置 TABLE [巧， q ]— TABLE [岛]，而且把 K 插人位置巧中。 

Brent 的分析指出，正如后面的图44中所示的那样，每次成功的查找的平均探 
查数是减少了，极大值大约为2.49。 

Brent 的变形并不减少在不成功查找中探查的次数 i + 1;它保持在等式 （26) 所 
指出的水平，当表满时，趋于 |(M + 1)。 每次插入需要计算的平均次数 h 2 是 a 2 + 

a 5 + +…，按照 Brent 的分析，最终趋于 ©(#) ;而且在判断如何来进行插入 

时额外被探查的表中位置数大约是 a 2 + a 4 + ja 5 十 a 6 +…。 

E . G . Mallach [ Comp . J . 20 (1977) ，137〜 140] 已经以 Brent 的变形的改进作了 
实验，而 Gaston H • Gonnet 和 J」an Munro 已经得到了 一^些进一^步的结果 [SJCOMP 

8 (1979),463 〜478]。 

删去 许多计算机程序员都高度地信任算法，他们惊奇地发现从 散列表删去记 
录的一种显然的方 式居然失效。例如，如果我们想从图41删去键码 EN ， 则不能简单 
地把表中这个位置标成空的，因为这将使另一个键码 FEM 突然地被忘记！（回想一 
下， EN 和 FEM 两者是散列到同一单元的。当考察 FEM 时，我们将发现一个空的位置， 
从而表示一次不成功的查找。）由于诸表的接合，对于算法 C 必出现类似的 问题； 试 
想像从图40中删去 TO 和 FIRE 两者。 

一般地说，我们可以通过置一个特殊的代码值于对应的单元中来处理删去，使 
得有三类表的项 ：空的 、已占用的以及已删去的。当查找一个键码时，我们将跳过已 
删去的单元，就像它们是已占用的那样。如果查找是不成功的，则这个键码可被插 

入到头一个遇到的删去的或者空的位置中。 

但是这一思想仅当删去非常稀少时才是可行的，这是因为一旦表的项变为已占 
用的，则它们就决不再次地变空。在进行了一长串重复的插入到删去的序列之后， 
所有可用空间都终将消失，而且每次不成功的查找将花费 M 个探查！其次每个探 
查的时间将增加，因为我们要测试 f 是否已经恢复成它在步骤 D 4 中的开 始值； 而且 
在一次成功的查找中探查的次数将趋于从 C N 上升到 C No 

当正在使用的是线性探查（即算法 L ) 时，如果我们愿意对删去做某些额外工 
作，则在删去时可避免上述麻烦情况。 

算法 R (用线性探查实现删去） 假定通过算法 L 已经构造了一个开式散列 
表，本算法从一个给定的位置 TABLE [ i ] 删去记录。 

R1. [弄空一个单元]标记 TABLE [ i ] 为空，且置 j — f 。 
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R 2.[ z 减值]置 i — f -1，如果这使得 i 成为负的，则置 i — i + M 。 

R 3. [ 检查 TABLE[f]] 如果 TABLE[f ] 是空的，则这算法结束。否则置 r — h 

(KEY[i]) ， 这个键码原来的散列地址现在存在位置；中。如果或 
如果 r<j<i 或 ( 换言之，如果 r 循环地位于 i 和 j 之间），则转回 
到 R2 0 

R 4 •[ 移动一个记录 ] 置 TABLE[j]—TABLE[i] 并返回步骤 Rl 0 | 

习题22表明这个算法不引起性能上的 蜕化； 换言之，在等式 （22) 和 （23) 中预测 
的平均探查次数保持相同（定理 6.2.2 H 中证明了对于树插入的一个较弱的结果）。 
但是算法 R 的正确性与这样一个事实密切相关，即它是用于线性探查的，而且不可 
能有类似的和算法 D —起使用的删去过程。习题64中分析了算法 R 的平均运行 
时间。 

当然，当对每个可能的散列值使用分开的表并实行拉链时，删去不会引起问题， 
因为它仅仅是从一个链接的线性表的删去。习题23中讨论了算法 C 中的删去。 

算法 R 可能移动表中的某些项，但如果有其它某处是指向这些项的，则这种移 
动是不希望发生的。通过采用废料回收中使用的某些思想，有可能有另外一个删去 
的方法（参见 2.3.5 小节） ：对 于每个键码我们可以保持一个“访问计数”说明有多少 
其它的键码同它 接触; 然后当某个未占用单元的访问计数为0时，就有可能把它转 
换成空状态。另一种方法是，每当已经累计有太多的删去的项时，我们可以扫视整 
个的表，同时转换所有未占用的位置成为空状态，而后考察所有剩余的键码，为的是 
找出哪些未占用的位置仍然需要“删去”状态。这些过程最初是由 TGunji 和 E . Go - 
to 提出的「/ Intformation Proc 3 (1980) ， 1 〜 12"| ，它避免使用浮动，且对任何散列技 

术都有效。 


对算法的分析 了解一个散列方法的平均特性是特别重要的，因为每当进行散 
列时，我们只能依靠概率的法则。这些算法最坏的情况几乎都不可想像地坏，所以 
我们需要得到 保证: 平均特性是很好的。 

在进行对线性探查等等的分析之前，让我们考虑这一状况的非常近似的模型， 

即 所谓的 均匀的散列。 在这个由 W . W . Peterson[；JBM J . Research & Development 1 

(1957)] 提出的模型中，我们假定每个键码被放置在这个表中完全随机的位置，使得 


JV 个已占用单元及 M-N 个空单元的种可能的配置是同等可能的。这个模型 


忽略一次堆积和二次堆积的任何 影响； 表中每个单元的占用基本上同其它的单元无 
关。对于这一模型，为插入第 N + 1 项恰恰需要 r 次探查的概率是 r-1 个给定的 


单元已占用和另-个单元是空的这样的配置数，除以(；；)，即 



因此，对于均勻的散列的平均探查次数是 
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M + 1 - （ iVf — TV) 


M 



N ) 


M 



M 


N 



M - N + 1 ， 


对于 1 < JV < M 


(32) 

(在习题 3.4.2-5 中我们实质上曾解决了同随机抽样相联系的同一个问题）。置 a 二 
NlM ， c' N 的这一精确公式近似地等于 



1 ~ a 



(33) 


这个级数有一种粗略的直观 解释： 我们需要一次以上的探查的概率为心二次以上 
的探查的概率为 a 2 , 等等。对于一次成功的查找对应的平均探查次数是 


1 N-1 

Cn = T7 

k = 0 


M + 1 
N 


M + 1 






M 



N 


( H m 


- H m _ n+1 ) ^ 


In 


a 


1 — a 


(34) 


如同上边所说的，广泛的测试表明，在所有的实际应用中，具有两个独立的散列函数 
的算法 D 的性能实质上像均匀散列一样。事实上，在当 M — ⑺时的极限下，双散列 
渐进地等价于均匀探查（参见习题70)。 

这就完成了对均匀探查的分析。为了研究线性探查和其它类型的解决冲突的 
办法，我们需要以不同的更现实的方式来建立这个理论。我们为此目的采用的概率 
模型假定 ： M N 个可能的“散列序列”的每一个 


a 1 a 2 , ** a N 0 < < M (35) 

是同等可能的，其中…表示插人到表中的第 j 个键码的初始散列地址。给定任何特 

殊的查找方法，在一次成功的查找中探查的平均次数将如同上面那样以 C N 表示; 

假定这是为求第 K 个键码所需要的探查的平均次数，平均是对所有 1<々<7 V 取 
的，而且每个键码都是同等可能的。类似地，当第 A / 个键码被插人时，所需要的探 
査的平均次数将以表示，其中认为所有的序列 （35) 是同等可 能的； 这是在以表 

中的 JV -1 个元素开始的不成功的査找中，探查的平均次数。当使用开式寻址法时 

1 N -1 

Cn = C k (36) 

于是我们可以像在 (34) 中所做的那样从其导出另一个量。 
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严格地说，即使在这个更为精确的模型中也有两个不足之处。首先，不同的散 
列序列不是全都同等可能的，因为诸键码本身是不同的。这使得 ai = a 2 的概率稍 

微小于 1/ M ; 但这个差别通常是可忽略的，因为所有可能的键码的集合相对于 M 来 
说是非常大的（见习题24)。其次，一个好的散列函数将利用典型数据的非随机性， 
使它甚至不大能有~ = 结果，我们对于探查次数的估计将是悲观的。在这个模 

型中的另一点不精确性已在图43中指 出：较 早出现的键码（除某些例外者外），比后 
来出现的键码更可能被查找。因此我们对于 C N 的估计更加悲观，而这些算法的实 

际运行情况应该比我们的分析所预言的稍好些。 

在打过这些招呼之后，我们已经准备好了对于线性探查作一个“精确”的分析' 
设 /( M ， iV ) 是在算法 L 插入了诸键码之后，使得表的位置0成为空的散列序列 
(35) 的个数。线性探查的循环对称性意味着位置0为空的可能性恰如其它位置一 
样，所以它为空的概率是 1- iV / M ; 换言之， 

/( M , N ) = (1 -咅 ) M n (37) 

由约定，我们也置/(0,0) = 1。现在设 g ( M ， iV ，0 是使得这算法保持位置0为空、 
位置1到々是已占用的、位置 A + 1为空的散列序列 （35) 的个数，我们有 

g ( M ， N ， k ) = + l , k ) f(M - k - l y N - k ) (38) 

因为所有这样的散列序列都是由两个子序列组成的 ，一 个序列（包含々个元素 

々）保持位置0为空，并保持位置1到々是已占用的，另一个序列（包含 N - A 个元素 
a } >k + 1) 保持位置 k + 1 为空;前一种类型有/(々+ 1，々）个子序列，后一种类型有 

/( M -々- l ， N ->0 个子序列，而且有种方式来散开两个这样的子序列。最 

后，设込是当插入第 iV +1 个键码时，恰巧需要々+ 1个探査的 概率； 由此得出（见 
习题 25) 

P k = M ~ N ( g ( M f N f k ) + g ( M ， N，k + 1) + …+ g ( M ， N ， N )) (39) 

现在，^ =义 =() (是+ 1)巧 ； 把这个等式同（36)〜（39)放在一起并简化之，即得下列 
结果。 

定理 K 假定所有 M n 个散列序列 （35) 是同等可能的，则算法 L 所需要的平均 
探査次数是 

C N = y(l + Q 0 ( M,N - 1)) (成功的查找） (40) 

C， N = y(l + Q !( M , N )) (不成功的查找） (41) 

* 在这里作者禁不住想要插进一段关于历史的说明 ：我于 1962年在开始撰写本书后不久，就已写出了下 
面的推导。由于这是我满意地分析过的头一个不平凡的算法，因此它对于这些书的结构已经有了强烈的影响。 
就是自那时起，算法分析实际上已成为我的生活的主旋律之一。——原注 
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证明计算的细节在习题27中给出。（关于方差，参见习题28,67和68)。 | 

在这个定理中出现的看起来稍微有些奇怪的函数 Q / M ， N )， 实际上并不难处 
理。我们有 

N k - < N(iV - 1)“.(N -左 + 1) < 

因此如果 iV / M = a ， 则 


即 






< Q r ( M , aM ) < 



(43) 


当 M 很大，且《不太接近于1时，这个关系给了我们对于 C ^( M ， iV ) 的一个好的估 

计(下限是比上限更好的近似）。当《趋于1时，这些公式就没有用了，但幸而 
Q 0 ( M ， M -1) 是函数 Q ( M )， 它的渐近特性在 1.2.11.3 小节中已被详细地研究过 

了。而且， Q ^ A ^ M - l ) 就等于 M (见习题50)。借助于超几何函数的标准记号， 
即等式 1.2. 6-39,我们有 


Q r ( M ， N ) = F(r + 1, - N ;; - 1/ M ) = f[ V + X， ~ N,1 - ^ 

\ 1 M / 

分析线性探査的另一个方法，已为 G . Schay ， Jr 和 W . G . Spruth 得到 [CACM 5 
(1962),459 〜462]。尽管他们的方法仅产生对于定理 K 中的精确公式的一个近似， 
但它却对这个算法给出了进一步的分析，所以在这里我们将简单地概述一下。首 
先，让我们考虑由 W . W . Peterson 于1957年首先指出的线性探查的一个令人惊异 
的性质。 

定理 P 通过算法 L 进行的一次成功的查找中，探查的平均次数同键码被插入 
的次序 无关; 它仅依赖于散列成每个地址的键码的数目。 

换言之 ，一 个散列序列 ai a r - a N 的任何重新排列，产生另一个散列序列，它的 


502 





6.4 散列 

诸键码相对于散列地址的平均偏移和原序列一样。（如同早先指出的，我们假定在 
这个表中的所有键码都有相同的重要性。如果某个键码比其它键码更频繁地被访 
问，则可以扩充本地证明，通过使用定理 6 . 1S 的方法，如果以频率的递减的次序插 
入它们，则出现一种最优的安 排。） 

证明 只需证明，对于散列序列为插入键码 所需要 的探查的总次 

数，和对于 ar - a i - 1 a i + l a i a i + 2 -' a N > l < i < N 所需要的总次数是相同的。显然，除 

开在第二个序列中的第 i + 1 个键码落入到在第一个序列中由第纟个键码占据的位 
置外，两者没有 差别。 但第 f 个和第 f + 1 个仅仅交换了位置，所以对于第 i + 1 个的 
探查次数减少的数量，等同于对第；个的探查次数增加的数量。 ■ 


定理 P 告诉我们，一个散列序列 ai a 2 -' a N 的平均查找长度，可由数心幻… 

△ M - 1 确定，其中~是等于』的诸 a 的个数。从这个序列我们可以确定“进位序列” 

，其中 G 是这样的一些键码的个数，在这些键码被插入时单元 j 和 j -1 
都被探查。这个序列通过规则 




0 , 




^ ( / + 1 ) mod M _ 1 ， 


_鲁 


b 


9 


如果 ~ = C(j + l ) mod M = 0 
否则 

032010000 2;贝 ! J c 0 


(44) 


… C9 


2 3 10 


确定。例如，设 M =10 ，iV = 8 以及心 

0 0 0 1 2 3,因为一个键码需要从位置2“进位”到位置1，三个键码需要从位置 1 进 
到位置0,其中的两个从位置0进到位置9,等等。我们有心+幻+…+ ‘^ = 1 

而且为了查找 N 个键码所需要的平均探查次数是 


1 + ( Co + C\ + 


… + 


)IN 


(45) 


规则 （44) 似乎是用 c 来定义自己的一种循环定义，但实际上每当 N < M 时，所述的 
方程就有惟一的一个解（见习题32)。 

Schay 和 Spruth 使用了这一思想，借助于 bj = k 的概率久，来确定 cj = k 的概 
率％(这些概率同7无 关）。 于是 


Qo = PoQo + PiQo + PoQi 

Qi ~ P2Q0 + PiQi + Po^i (46) 

92 = P3Q0 + p2Qi + Pxqi + Poq3 

等等，因为例如 4 = 2 的概率是~ + c 0 + 1) modM = 3 的概率。设 B ( z ) = 2 p k z k 和 
C ( z ) = 2 q k z k 是这些概率分布的生成 函数; 等式 (46) 等价于 

B ( z ) C ( z ) = PoQo + (Qo - PoQo) z + Qi ^ 2 + = fi 0 qo(l ~ z ) + zC ( z ) 

由于 B ( l ) = l ， 我们可以写 B ( jO = 1 +( z _ 1 ) D ( 2 ：)， 而且由此得出 


C(z) 


P0Q0 = 1 - D ( l ) 

1 — D(z) 1 — D(z) 


因为 C ( l ) = l 0 根据 (45)， 为进行查找所需要的平均探查次数，将是 


( 47 ) 
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M 



D^l) 


N 1- D ( l ) 



M 


B"(l) 


2 N 1 - B ' il ) 


由于我们假定了每一个散列序列 



⑽是 同等可能的，所以有 


Pk 


Pr (对于固定的 h 恰有々 个化等于 j ) 


(48) 



(49) 


因此 


B ( z ) 


1 



- 1 


N 



M 


B\l) 


N 

M 1 


B"(l) 


N(N - 1) 
M 2 


(50) 


而且根据 (48)， 平均探查次数将是 



读者能否看出，引起这答案不同于定理 K 中的正确结果的不正确推理（参见习题 
33) 0 


* 最优性考虑 我们已经看到若干关于开式寻址法的探査序列的例子，因而自 
然要 问：能 否找到一个在某种意义下是最优的序列？这一问题已经由 J . D.Ullman 
以下列有趣的方式提出来 [/ACM 19 (1972) ，569 〜 575]; 我们不去计算一个散列地 
址 / i ( K )， 而是把每个键码 K 都映射到 iO , l , …， M - 11的一整个排列中，这排列表 
示对 K 使用的探査序列。对于 M ! 个排列的每一个赋予一个概率，而且提出一个 
广义的散列函数，它以指定的概率来选择相应的列。问题是，在其对应的平均探查 
次数 C N 或 C ， N 为极小这样的意义下，对于诸排列选定什么样的概率，将给岀最好的 

性能？” 

例如，如果对每个排列选定 1/ M ! 的概率，则容易看出我们恰巧有在(32)、（34) 
中已经分析过的均匀散列的特性。然而， Ullman 已经找到了对于 M = 4 ，N = 2 的 

一个例子，对于它 C ; v 小于由均匀散列得到的值 I "。他的构造是，对于除下列6个 


排列之外的所有排列，都指定概率为0 


排列 

概率 

排列 

概率 

0 12 3 

(1 + 2()/6 

10 3 2 

(1 + 2^)/6 

2 0 13 

(1 - ()/6 

2 10 3 

(1 - ^)/6 

3 0 12 

(1 - 6)/6 

3 10 2 

(1 - ^)/6 


(52) 


粗略地说，第一种探查趋向于2或3,但第二种探查总是0或1。为插入第三项所需 
要的平均探查次数 C ， 3 是 f - 各 e + 0(/)。所以我们通过取 f 为一个小的正值，可 


以改进均匀散列。 

然而，对于这些概率对应的的值是||+ 0(()，它大于 5/4( 均匀散列的值）。 
Ullman 已经证明，对于某个 N ， 使得< (M + 1 )/(M + 1 - iV ) 成立的任何指定， 
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总是意味着对于某个 ^〈 WC^XM + DKM + l - 72); 你不可能在所有时候都胜 
过均勻散列。 

实际上 ，一 次成功的查找的探查次数 C N ，是比 C ； v 更好的量度。 （52) 中的排列 

对于任何的 N 都不能改进。而且 UUmari 确实猜测，对概率的任何选定，都不能使 
C N 小于均匀的值 （（ M 十 1)/7 V )( H m + 1 _ H m+1 _ n )。 姚期智通过证明当 N=aMm 


M — ^时极限费用总是而证明了这个猜测的一个渐进形式 [/ A ( CM 32 

a 1 ~ a 

(1985), 687 〜 693)。 

Ullman 猜测的强的形式似乎非常难以证明，特别是因为有许多方法可选定概 
率以达到均匀散列的 效果； 我们不需要对每个排列选定 l / M!o 例如，对 M 二 4的下 
列选定就等价于均匀 散列： 

排列 概率排列 概率 
0 1 2 3 1/6 0 2 1 3 1/12 

1 2 3 0 1/6 1 3 2 0 1/12 (53) 

2 3 0 1 1/6 2 0 3 1 1/12 

3 0 1 2 1/6 3 1 0 2 1/12 

同时选定其它16个排列的概率为0。 

下列定理表征了产生均匀散列特性的所有选定。 


定理 U 对于 0< N < M ， 在进行了 N 次插入之后，对于排列的一个概率选定将 
使〈义^个空的和已占用单元的配置的每一个都同等可能,当且仅当对所有的 N 和 

所有 N 元素的集合，选定所有如下排列的概率之和是1/ 这些排列的头 N 个元 

素是一个给定的 N 元素集合的元素。 

例如，对于在某一顺序下以数10，1，2|开始的3! ( M -3)! 个排列中的每个排 
列选定的概率之和必然是二3! ( M -3)! / M !。 注意，这个定理的条件在 

(53) 中成立，因为 1 /L + 1/12 = 1/4。 

证明设 Ad 0， l , …， M - 1!,且设 n ( A ) 是其头 | A 丨个元素为 A 的成员的 
所有排列之 集合； 且设 S ( A ) 是对于这些排列选定的概率之和。设 PJA ) 是在执行 

开式寻址法过程中头 I A | 次插入占用由 A 确定的位置，且最后一次插入恰需々次 
探查的 概率； 最后，设 + P 2 ( A ) +…。本证明对 N >1 用归纳法，假 

定对于满足 I A I = n < TV 的所有集合 A 有 


P(A) — S(A) = 1 



设 B 是任意 iV 个元素的集合，则 
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Pk(B) 




Pr(7t)P(B \ ! 




ACB 


en(A) 


其中 Pr (; r ) 是对排列； r 选定的概率，而^是它的第々个元素。由归纳法 


Pk(B) 








M 

N — 1 



PrU )， 


neri(A) 


它等于 


N 

k 


M 


N 


M 


1/U 


如果 k < N 


因此 


P(B) 


1 


M ' 
N - 1) 



-1 


S(B) 




(N 

V k 


l 


M 



当且仅当 S ( B ) 有正确的值时它可等于 1 


M 

N 


o 


外部查找散列技术有助于对磁盘或磁鼓这样的直接存取存储设备进行外部 
査找。对于这样的应用，如同在 6.2.4 节中那样，我们要把对文件的存取次数极小 
化，这对于算法的选择有两项主要的 影响： 

1 ) 花费较多的时间计算散列函数是合理的，因为坏的散列函数带来的损失，比 
起进行一项仔细的工作所需要的额外时间代价要大得多。 

2 ) 通常都把记录组织成页或桶，以便每次从外存取出若干个记录。 

把文件分成为每个包含6个记录的 M 个桶。现在除非6个以上的键码有相同 
的散列地址，不然冲突不会造成问题。下列三种解决冲突的方法似乎是最 好的： 

A ) 用分开的表列拉链如果有多于6 个记录落到同一桶当中，则可在第一个 
桶的末尾插入一个通向“溢出”记录的链接。把这些溢出记录放在一个特殊的溢出 
区域中。通常，在溢出区域中存放桶并没有优点，因为溢出较少 出现； 于是，通常额 


外的记录链接在一起，使得一个表列的第 （6 +幻个记录需要1 + A 次存取 


0 


通常一 


种好的想法是在一个磁盘文件的每个柱面上都为溢出保留某些为空间，使得大多数 
存取是对于相同柱面进行的。 

尽管处理溢出的这个方法似乎低效，但溢出的次数从统计上说足够小，以致平 
均查找时间仍然非常好。见表2和表3,它们示出了当 M ， N — oo 时，对于固定的 

作为负载因子 



a = NlMb (54) 

的函数的平均存取次数。奇怪的是，当 a = 1时，不成功的查找的渐近存取次数竟随 
b 而增加。 
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表2通过分开拉链进行一次不成功查找的平均存取数 


桶 

大小，6 

10 % 

20 % 

30 % 

40 % 

负载因子《 

50 % 60 % 

70 % 

80 % 

90 % 

95 % 

1 

1.0048 

1.0187 

1 • 0408 

1,0703 

■ 

1.1065 

1.1488 

1.197 

1.249 

1.307 

1.34 

2 

1.0012 

1 ■ 0088 

1.0269 

1.0581 

1 ■ 1036 

1.1638 

1.238 

1.327 

1.428 

1.48 

3 

1 ■ 0003 

1 . 0038 

1.0162 

1.0433 

1 . 0898 

1.1588 

1.252 

1.369 

1.509 

1.59 

4 

1.0001 

1.0016 

1.0095 

1.0314 

1.0751 

1.1476 

1.253 

1.394 

1.571 

1.67 

5 

1 . 0000 

1 ■ 0007 

1.0056 

1.0225 

1.0619 

1.1346 

1.249 

1.410 

1.620 

1.74 

10 

1 ■ 0000 

1 • 0000 

1 ■ 0004 

1.0041 

1 ■ 0222 

1 • 0773 

1.201 

1.426 

1.773 

2.00 

20 

1 • 0000 

1 ■ 0000 

1 ■ 0000 

1.0001 

1 ■ 0028 

1. 0234 

1.113 

1.367 

1.898 

2.29 

50 

1 . 0000 

1 ■ 0000 

1 ■ 0000 

1 ■ 0000 

1.0000 

1.0007 

1.018 

1.182 

1.920 

2.70 


表 3 通过分开拉链进行一次成功查找的平均存取数 


桶 

大小，6 

10 % 

20 % 

30 % 

40 % 

负载因子 a 

50 % 60 % 

70 % 

80 % 

90 % 

95 % 

1 

1 ■ 0500 

1.1000 

1.1500 

1 ♦ 2000 

1.2500 

1. 3000 

1.350 

1.400 

1.450 

1.48 

2 

1 • 0063 

1 ■ 0242 

1 ■ 0520 

1.0883 

1.1321 

1.1823 

1.238 

1.299 

1.364 

1.40 

3 

1.0010 

1.0071 

1.0216 

1.0458 

1 ■ 0806 

1.1259 

1.181 

1,246 

1.319 

1.36 

4 

1 . 0002 

1. 0023 

1. 0097 

1.0257 

1.0527 

1 ■ 0922 

1.145 

1.211 

1.290 

1.33 

5 

1 ■ 0000 

1 ■ 0008 

1.0046 

1.0151 

1.0358 

1 • 0699 

1.119 

1.186 

1.286 

1.32 

10 

1 . 0000 

1 ■ 0000 

1 ■ 0002 

1.0015 

1 • 0070 

L 0226 

1.056 

1.115 

1.206 

1.27 

20 

1.0000 

1.0000 

10000 

L 0000 

1.0005 

1.0038 

1.018 

1.059 

1.150 

1.22 

50 

1.0000 

1 ■ 0000 

1 ‘ 0000 

1 . 0000 

1 ■ 0000 

1.0000 

1.001 

1.015 

1.083 

1.16 


B ) 通过接合表列进行拉链 我们可修改算法 C ， 使之适用于外部文件，以代替 
分开的溢出区域。对于每一个柱面，使用可利用空间的双重拉链表列，可把所有还 
未满的桶链接在一起。在这个方案中，每个桶包含一个计数，它表明桶中有多少记 
录位置为空，仅当计数变成0时，这个桶才从双重链接表中撤销。可用“活动指针” 
分布溢出（参见习题2.5-6)，使得不同的表列趋于使用不同的溢出桶。对这个方法 
还未曾分析过，但它将被证明是十分有用的。 

C ) 开式寻址法 我们也可以不用链，而使用“开式”方法。当考虑外部查找时， 
线性探查大概比随机探查更好，因为通常可以选择增量 c 使它把连续存取间的等待 
延迟时间极小化。可推广上面作出的线性探查的近似理论模型，以考虑桶的影响， 
它表明，除非这个表已经变得非常满，否则线性探查确实令人满意。例如，参见表 
4;当负载因子是90%且桶的大小是50时，在一次成功的查找中平均存取次数只是 
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1.04。这实际上比对于相同大小的桶使用拉链方法 ( A ) 所需要的 1.08 次存取更好! 

表4通过线性探查在一次成功查找中的平均存取次数 


桶 

大小 》b 

10 % 

20 % 

30 % 

40 % 

50 % 

负载因子 

60 % 

a 

70 % 

80 % 

90 % 

95 % 

1 

1.0556 

1.1250 

1.2143 

1.3333 

1 ■ 5000 

L 7500 

2.167 

3.000 

5.500 

10.50 

2 

1 . 0062 

1 ■ 0242 

1.0553 

1.1033 

1.1767 

1 . 2930 

1.494 

1.903 

3.147 

5.64 

3 

1 . 0009 

1 ■ 0066 

1.0201 

1.0450 

1 . 0872 

1.1584 

1.286 

1.554 

2.378 

4.04 

4 

1 ■ 0001 

1.0021 

1 ■ 0058 

1 . 0227 

1.0497 

1. 0984 

1.190 

1.386 

2.000 

3.24 

5 

1 • 0000 

1. 0007 

1 ■ 0039 

1.0124 

1 • 0307 

1.0661 

1.136 

1.289 

1.777 

2.77 

10 

1 ■ 0000 

1. 0000 

1.0001 

1.0011 

1 . 0047 

1.0154 

1.042 

1.110 

1.345 

1.84 

20 

1. 0000 

1 . 0000 

1 ■ 0000 

1 . 0000 

1 ■ 0003 

1 ■ 0020 

1.010 

1.036 

1.144 

1.39 

50 

1. 0000 

1 • 0000 

1 ■ 0000 

1 . 0000 

1 • 0000 

1 ♦ 0000 

1.001 

1.005 

1.040 

1,13 


对于方法 ( A ) 和 （ C ) 的分析涉及某些非常有趣的 数学； 我们在这里仅仅概述其 
结果，因为细节已在习题49和55中加以研究。这些公式涉及到同定理 K 的 Q 函 
数密切有关的两个函数，即 


R ( a ， n 


n 


+ 


a 


n 



+ 1)(77 + 2 ) 



n 3 a 2 


n 


n 



1 )( 


2) (w + 3) 


+ 


■ # 


(55) 


以及 


t n ( a ) 


an 


e 




n 



D ! 



2 


( cm ) ” + 1 
n + 2) ! 




( an) n + 

n + 3) 


2 



^ — na n 

e n a 


n ! 


(1 — (1 — a ) R(a ^ n )) 


(56) 


若用这些函数来表示，当 M,iV 
作的平均存取次数是 


oo 


时，在一次不成功的查找中通过拉链方法 ( A ) 所 


C ； 


N 


1 + abtfy ( a ) + O 


M 


而在一次成功的查找中对应的次数是 


Cjsj 



e 


ha b h a h 


2 b \ 


(2 十 （a — 1)6 



(57) 


( a 2 + (a - l) 2 (b - l )) R ( a f b )) + (58) 

这些公式的极限值是在表2和表3中所示的量。 

由于拉链方法 ( A ) 需要一个分开的溢出区，因此我们需要估计将出现多少溢出。 
溢出的平均次数将是 M ( C / N - 1) = A ^( a ), 因为 C N -\ 是在任何给定的表列中 

平均的溢出次数。因此表2可用来推导出所需要的溢出空间的数量。对于固定的 


当 M — 〜时，溢出的总数的标准差将大 致同# 成正比。 
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C； v * C N 的渐近值岀现在习题 53 中，但当 6 很小或 a 很大时，这些近似不是非 

常好； 幸而，只 U ， n ) 的级数收敛速度甚至当 a 很大时也颇快，所以这些公式可以没 
有多大困难地计算到任何想要 划精度 。由 Stirling 近似公式和 1.2.11.3 小节中对 
函数 R ( n ) = Ril ^ n ) ~1 的分析，当 6 — 〜时，在 

- brb + 1 / ~ 

max C' N = 1 十一 n —=十 1 + 0(6 _1 ’ 2 ) (59) 

max C N 二 1 + + 1) = | +/ V9^ + 。 ( 办 1 ) (60) 

的条件下，对于 a = 1 出现极大值。 

在通 过线性 探查所作的一次成功的外部查找中，平均的存取次数有异常简单的 
表达式 

C N ^ 1 + t b {a) + t 2 b(^) + 十 … (61) 

它可被理解如 下：查 找所有 N 个键码的平均总访问次数是 NC n ，此即 N + T ! + T 2 
+…，其中尺是需要多于 A 次访问的键码的平均个数。定理 P 指出，我们可以以任 
何顺序记入键码而不影响 C N ，并由此得出，如果我们有大小为祕的 M /々 个桶，则 
尺是在拉链方法中出现的溢出记录的平均个数，如果按我们上边所说的，也就是 
Nt kb (a) 0 关于等式 (61) 的进一步论证请见习题55。 

Charles A . Olson 已经精采地论述了早期在外部散列表的设计中所涉及的实用 
性的考虑，参见 Proc . ACM Nat. Conf. 24(1969) ， 539 〜549。他列举了若干实践过的 
例子，并且指出，如果文件受到经常的插入/删去活动的影响而不浮动记录，则溢出 
记录的次数将大量增加；他还给岀了对于这 一 情况的分析。这是在 J . A.de Peyster 
的参与下得到的。 

诸方法比较 我们现在已经研究了大量的用于查找的 技术； 怎样选出正适合于 
给定应用的一个方法呢？很难以几句话来概括在选择一个查找方法时所涉及的有 
关“折衷”的细节，但是相对于查找速度和所需的存储空间说来，下列诸事似乎是具 
有第一位重要性的。 

图44概括了这一节的分析，并表明了解决冲突的各种方法导致的不同的探查 
次数。但是探查计数并未说出事情的全部，因为在不同的方法中每次探查的时间也 
不同，而且方法的变化对于运行时间有相当大的影响（如同我们在图42中见到的）。 
线性探查比图44中所示的其它方法更经常地访问表，但是它有简便的优点。而且 
线性探査也并非坏得 可怕： 当表有90%满时，为把一个随机项放置在表中，算法 L 
平均需要少于 5.5 次的探查。（然而，当表90%满时，通过算法 L 插入一个新的项 
所需要的平均探查次数是50.5。） 

图44表明，就探查次数而言，拉链方法是十分经济的，但因为链接字段需要额 
外的存储空间，故有时开式寻址法对于小记录更有吸引力。例如，如果我们需要在 
容量为500的一个拉链散列表和容量为1000的一个开式散列表之间进行选择，则 
后者显然是更可取的，因为当存有500个记录时，它的查找效率比较高，而且它有能 
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图 44 解决冲突诸方法的比较：当 M — oo 时平均的探査次数的极限值 

( a ) 不成功的 査找； （ b ) 成功的查找。 

力吸收两倍的数据。另一方面，有些记录的大小和格式实际上无需额外的代价就能 
为链接字段提供空间（参见习题65)。 


怎样把散列方法同我们在本章中已研究过的其它查找策略作比较呢？从速度 
的观点看，我们可以论证，当记录个数很大时，散列法更好些，因为如果假设表不太 


满，则当 N 


oo 


时， 


个散列方法的平均查找时间保持有界。例如，当表有90%满 
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时,对于一次成功的查找，程序 L 将仅仅花费大约 55 个时间 单位； 当 IV 大于 600 左 
右时，这比我们见到的最快的 MIX 二分查找程序要强（见习题 6.2.1-24) ， 而代价仅 
为多花 11 %的存储空间。而且，二分查找仅适合于固定的表，而一个散列表却允许 

有效的插入。 

我们也可以把程序 L 同允许动态插入的面向树的查找方法进行比较，当 N 大 
于约90时，对于90%满的表，程序 L 比程序 6.2.2 T 更快； 而当 iV 大于约75时，它 

也比程序 6 .3 D 更快（习题6.3-9)。 

对于成功的查找说来，这一章中仅有一个查找方法是有效且实际上没有存储开 
销的，这就是算法 D 的 Brent 变形。他的方法允许我们把 N 个记录放到大小为 M 
= N + 1 的一个表中，而且平均以大约 2.5 次探查找出任何记录，链接字段不需要额 
外的空 间等； 然而，对于不成功的查找将是非常缓慢的，需要大约 N / 2 次的探查。 

因此，散列有若干优点。另一方面，在三个重要的方面散列表的查找比我们已 

经讨论的其它方法要差： 

a ) 在散列表中一次不成功的查找之后，我们仅仅知道所希望的键码不存在。以 
比较为基础的查找方法总是产生更多的信息，它们允许我们找出的最大键码和 
1或>}< 的最小 键码; 这在许多应用中很重 要的； 例如，它允许我们对一个存储好的 
函数值表进行内插。也可使用以比较为基础的算法，来找出处于两个给定的值 K 
和 iT 之间的所有键码。而且 6 . 2 节的树查找方法使得以递增的次序来遍历一个表 

的内容很容易做，而无需对它单独排序。 

b ) 对散列表进行存储分配通常有些困 难的； 我们需要提供某一个存储区域用来 
存散列表，但应当分配多少空间可能不明显。如果我们提供了太多的内存，则可能 
损害其它表列或其它计算机用户范围内的 存储; 但如果不提供足够的空间，则这个 
表会溢出。反之，树查找和插入算法所处理的树不会增长得比需要的更大。在一个 
虚拟的存储环境中，如果我们使用树查找或数字树查找，就可使内存访问局部化，而 
不是去建立一个很大的散列表，散列表几乎在每次散列一个键码时，就要求操作系 

统访问一个新的页。 

c ) 最后，当我们使用散列方法时，需要对概率论有巨大的信赖，因为散列法仅仅 
平均来说是有效的，而最坏的情况则是可怕的！与随机数生成程序的情况类似，我 
们决不能完全保证当把一个散列函数应用于一个新的数据集合时，它能工作得很 
好。因此散列存储对于某些同人类的生命攸关的实时应用，如空间交通控制，将是 
不适当的。 6.2. 3小节和 6.2. 4小节的平衡树算法更为安全，因为它们的查找时间 

的上限是有保证的。 

历史 散列的思想看来是由 H . P.Luhn 创立的，他于1953年1月写了一篇 
IBM 的内部备忘录，建议使用 拉链; 事实上，这也是拉链线性表的最初应用之一。他 
提出了在外部查找中以使用包含一个以上元素的桶为好。不久以后， A . D.Lin 把 
Luhn 的分析推进一步，并且提出了使用“退化地址”处理溢出的 技术； 例如，假定存 
在10000个初级桶，1000个二级桶，100个三级桶，等等，则由初级桶2748产生的溢 
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出被置于二级桶274 中； 而从该桶产生的溢出再转到三级桶27中，等等。 Luhn 最 
初提出的散列函数本质上是数 字的; 例如，他把键码数字的相邻对加起来并 mod 10,使 
得31415926被压缩成4548。 

大约同一时间，散列的思想独立地出现于 IBM 的另一伙成员当中。他 们是： 

% 

Gene M . Amdahl、Elaine M . Boehme 、 N . Rochester 以及 Arthur L . Samuel ， 他们编制 / 

对于 IBM 701 的一个汇编程序。为了处理冲突问题， Amdanl 创立了使用线性探查 
的开式寻址法的思想。 

散列代码首先是由 Arnold . I . Dumey 第一个在公开的文献中描述的，参见 Com¬ 
puters and Automation 5 , 12(1956 年12月 ），6 〜 9。他第 一 个提出除以一个素数和 

使用余数作为散列地址的思想。 Dumey 有趣的论文提到了拉链而非开式寻址法。 
俄罗斯的 P . Ershov 于1957年独立地发现了线性开式寻址法 [DoWdy Aicad . ATaui : 

SSSR 118 (1958),427 〜 430]; 他发表了关于探查次数的经验结果，正确地猜测到当 
N / M <2/3 时，每一成功的查找的平均探查次数<2。 

W . W . Peterson 的一篇经典的文章 ， IBM J . & Development 1 (1957)， 

130〜146,乃是第一篇讨论在大型文件中的查找问题的重要文章 。 Peterson 一般地 
定义了开式寻址法，分析了均匀散列的性能，而且对于各种桶的大小给出了关于线 
性开式寻址法的各种经验统计，说明当删去项目时岀现的性能上的蜕化。六年之 
jp , Werner Buchholz[/jBM Systems J. 2 (1963) ， 86 〜 111 ] 发表了关于这个课题的另 
一 篇广泛的综述，他给出了关于散列函数的一个特别好的讨论。 A . G . Konheim 和 
B . Weiss , SIAM J. Appl. Math. 14 ( 1966 ), 1266 〜 1274; V . Podderjugin , Wis- 
senschaftliche Zeitschrift der Technischen Universitat Dresden 17 (1968) ， 1087 〜 1089 

首先发表了对于算法 L 的正确的分析。 

到这时为止，线性探査是出现于文献中的惟一的一类开式寻址法方案，但还有 
一个通过独立的散列函数进行重复的随机探查为基础的方案是由另外一些人独立 
地提出来的（见习题48)。在之后数年中散列广泛地被使用，但是几乎没有发表任 
何更多的东西。然后 Robert Morris 写了一篇关于这个课题的非常有影响的综述 
[CACM 11 (1968) ，38〜44]，其中他介绍了带有二次堆积的随机探查的思想。 Mor ¬ 
ris 的文章引起了一阵研究热潮，并以算法 D 及其改进而达到高潮。 

说明这样一点是有趣的，具有目前的意义的“散列” （ hashing ) —词，在20世纪 
60 年代末期以前，似乎完全没有见诸文字当中，尽管那时在世界的若干地区它已经 

变成了普遍的术语。这个字最初见于书面似乎是在 H . Hellerman 的书 Dig 也〗 Com¬ 
puter Sys tem Principles (纽约 ： McGraw — Hill , 1967 ) ，第 152页中。在撰写这一'节 

时，我所研究的近60篇有关的文献当中，这一词惟一地出现于1961年由 W . W . Pe ¬ 
terson 所写的一篇未发表的备忘录中。在 20 世纪60年代中期，不知怎么回事，“散 
列 ” （to hash ) 这一动词竟魔术般地变成了关于键码转换的标准术语，但是在1967年 
以前却没有人敢很轻率地公开使用这样一个不庄重的词。 

最新的进展 自从作者于1972年最初编写这一章时，散列在理论和时间上都 
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已取得许多进展，但上面讨论的基本思想对于通常的应用来说仍然是有用的。 

如，由 J . S . Vitter 和陈文进所写的书 DesigTi and Analysis of Coalesced Hashing (纽约: 

牛津大学出版社， 1987) 讨论和分析了算法 C 的若干有教益的变形。 


从一种实用的观点看，在 20 世纪 70 年代末期发明的最重要的散列技术大概是 

Witold Litwin 称之为线性散列的方法 [Proc. 6th International Conf . on Very Large 

Databases (1980)，212 〜 223] 。 线性散列——顺便说它和线性探查的经典技术毫无 

关系——当诸项被插入和/或删去时，允许散列地址的数目增长和/或合适地收缩。 
Per-Ake Larson 在 CACM 31 ( 1988 )， 446 〜 457 给出了关于线性散列，（包括对于内 

查找，它同其它方法的比较在内）的一个杰出的 讨论； 对于当许多大的和/或小的表 

问时出现时的改进，也请见 W. G. Griswold 和 G. M. Townsend , Software Practice & 

Exp . 23 (1993),351 〜 367 。 线性散列也被用于在一个网络的许多不同的现场之间 

分布的巨大的数据库中[参见 Litwin, Neimat 和 Schneider, ACM Trans . Database 
Syst . 21 ( 1996) ,480 〜 525 ]。 大约在同 一 ^ 时期， R_ Fagin, J. Nievergelt , N. Pippenger 
和 H . R . Strong [ACM Trans . Database Syst . 4 (1979) ,315 〜 344] 提岀 了称作可扩 充的散 

列的另一个方案。它有这样的性质，即为检索任何记录，至多需要两次访问外部的页。 
当键码的次序不重要时，线性散列和可扩充散列都比 6.2.4 小节的 B 树更可取。 

在理论领域中，已经设计出更复杂的方法，通过这些方法，有可能保证，不论被 
考察的键码如何，对于每次访问，有 0(1) 的极大时间，且对于每个插入和删除有 
0(1) 的平均平摊 时间； 而且，在任何时间里所使用的总共的存储以一个常数乘上当 
前存在的次数为限，加上另外一个加性常数。在 Fredman ， Koml6s 和 Szemeredi 
\JACM 31 (1984),538 〜 544] 的思想为基础构建出来的这一结果，是由 Dietzfel- 

binger, Karlin, Mehihorn, Meyer auf der Heide, Rohnert 以及 Tarjan [S/COMP 23 

(1994),738 〜 761] 给出的。 


习题 

1. [20]假定 K 的字节1，2,3各包含少于30个字母字符代码，当达到表1中的指令 9 H 时， 
rll 的内容可以多小和多大？ 

2. [20] 找岀可以附加到表1而又无需改变程序的相当常用的英文字。 

3. [23] 说明为什么对任何常数 a ， 以下列五条指令开始的程序 

LD1 K(l ： l) 或 LD1N K(l ： l) 

LD2 K(2 ： 2) 或 LD2N K(2 ： 2) 


、工 NCI 

LD2 K(3 ： 3) 

J2Z 9F 

都不能用来代替表 1 中更复杂的程序，因为对于给定的键码将不能产生惟一的地址。 

4 • [ M 30 ] 为了使得很可能有 三个人 有相同的生日，应该有多少人参加一个晚会？ 

5.[i5] B.C.Dull 曾经用一台十进的 MIX 计算机写一个 FORTRAN 编译程序，而且他需要一 
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个符号表来记住正在被编译的 FORTRAN 程序中的变量名字。这些名字的长度限制成至多10 
个宇符。他决定使用 M = 100的一个散列表，而且使用快速散列函数 A ( K ) = K 的最左字节。这 
是一个好的想法吗？ 

6. [15] 把 （3) 的头两条指令改变成为 LDA K ; ENTX 0,是明智的吗？ 

7. [ HM 30] (多项式散列）本题的目的是考虑如像 （10) 那样的多项式 P (: c ) 的构造，它把72位 
键码转换成为 m 位地址，使得任何两个不相同的键码如果其区别不超过七位，则它们一定被散列 
成不同的地址。给定〃和并给定一个整数々，使得〃整除 W -1， 我们将构造一个其次数 m 
是《和々的函数的一个多项式（通常在必要时增大〃使得把々选择成相当小）。 

设 S 是使得11,2, / \ ^ S 的整数的最小集合，而且设对所有 j €: S , (2 j ) mod ?? G S 。 例 

如，当72 = 15,々 = 4 ，i = 6 时，我们有 S = 丨1,2,3,4,5,6,8，10，12,91。现在定义多项式 P ( o :) = 
n ; es u - v ), 其中 a 是有限域 GF (2 M 中阶为； 2 的一个元素，而且 PU ) 的系数是在这个域中计 

算的。 PU ) 的次数 m 是 S 的元素的个数。因为当 V 是 PU ) 的一个根时， a 2) 也是它的一个根， 
由此得出 PU ) 的系数久满足乂 = A ，所以它们全都为0或1。 

试证明，如果 R ( x ) - r ，, - …+ r { x + r 0 是任意非 0 多项式 modulo 2,而且至多有 Z 个 

非0的系数，则只 U ) 不是 P ( x ) modulo 2 的一个倍数[由此得出，对应的散列函数的特性就像已 
宣告的那样。] 

8. [ M 34] (三 距离 定理） 设0是0和1之间的无理数，在 4.5. 3小节的记号下它的连分式表 

示是 夕〜 ， a 2 ， a 3 ,… 夕。设 g 0 = 0, po = 1 ， 9i = 1 ， />1 = 0,对于 k ^\ y g k + l = a k q k + q k - ly p k + l 
- a k p k + /> 々- 1 o 设 |工| 表示 x mod 1 = 工 - 匕工」， 且设丨工 1 + 表示 x - 「工"| + 1。随着点 |(9 l ，1 2(9 1 , 

…逐次插入到区间 [0,1] 中，而把线段按它们出现的方式进行编号，使得一个给定长度的第 
一段编号为0,第二段为1,等等。试证明下列命题全 为真： 长度为 i / W 且编号为 5 的区间，其左端 
点为|4丨，右端点为|(5+£)0丨 + ，其中 i = rw +仏_ i 和 (X r < a A 且々 为偶数以及 （Xs < 。长 

度为 i _ uw 且编号为 5 的区间，其左端点为 Us + o <9 i ， 右端点为 ur , 其中 + 

且 々为 奇数及0< 5 <沿。每个正整数 n 均可惟一地表示成 n = r 以+ 9^ + 5,其中々> 

借助这个表示，在点被插入之前，已有的72个区间为 

长度 + s 个区间（编号0,…， S -1); 

长度丨 （- 1 ) ^ + 1 q k 6 1的头 n _ 心个区间（编号为()，••■， 

长度 l ( _ l ) if (( r - l)w + %_ 1 )0 l + 的最后个区间（编号为 5,…， 以-1) 

插入的操作撤销编号为 s 的最后一种类型的区间，并把它转换成编号为 s 的第一种类型的区 
间，以及编号为 n ~ q k 的第二种类型的区间。 

9. [ M 30] 当我们逐次地把点 IH 2 幻，…插入到区间 [0.1] 中时，定理 S 断言每个新的点总 

是分割剩下的最大的区间之一。如果把区间 [ a .. C ] 分成两个部分而其中的一个部分 

大于另一部分的两倍长，即若6 - a >2 ( C - 6)或 C _ 6 >2(6 - a ), 则我们称它为一个坏的分 
割 。 

证明除非0 mod 1 = f 2 , 对于某个 | 72(9 丨将出现坏的分割，而当 <9 mod 1 = 或彡 _2 

时，将决不产生坏的分割。 

10 . [ M 38 ] ( R . L . Graham ) 如果 d ， ai ，…， 是实数且〜二0,且如果 n Xi - y n d 是正整数，此 
外如果对于0<72<~,1<7‘<3,点 IM + 被插入到区间 [0..1] 中，则得到的〜+…+〜（可能 

为空）个区间至多有 3 d 个不同的长度。 

11. [ J 6] 成功的査找通常比不成功的査找要更为频繁。如果因此而把程序 C 的行12 〜 13同 
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行10〜11加以交换，这是否为一个好想法？ 

► 12.[2J ] 证明程序 C 可被重写成使得在内部循环中仅有一个条件转移。把修改了的程序同 
原来的程序的运行时间作比较。 

► 13.[24] (略写的键码）设 MK ) 是一个散列函数，且设是 K 的一个函数，使得一旦已 
经给定 / i(K) 和 WK)， 便可确定 K。 例如，在除法散列中，我们可以设 h ( K ) = K mod MS 
gOO 二 LK/M」； 在乘法散列中可以设 /iUO 是 （AX/w) mo d 1的前几个二进位，而 g(K) 是其它 

的二进位。 

试证明，当使用拉链而不使用重叠的表列时，在每个记录中我们仅需存储 <7(iO 而不是 K (这 
几乎节省了链接字段所需要的空间）。试修改算法 C 使其避免重叠的表列，以允许这样略写的键 

码，而且对于“溢出”的记录还不使用辅助存储单元。 

14. [24] E.W.Elcock 证明有可能让一个很大的散列表同任意多个其它拉链表共享内存。 
设这个表列区域的每个字有一个2位二进位的 TAG 字段以及称作 LINK 和 AUX 的两个链接字段， 

并有下列的 解释： 

TAG(P)=0 表示可用空间表列中的一个字； LINK(P) 指向该表中的下一项， AUX(P) 不用。 

TAG(P) = 1 表示正在使用的一个字，其中 P 不是散列表中任何键码的散列地址；单元 p 中字的 
其它字段可以有任何需要的格式。 

TAG(P) = 2 表示 P 至少是一个键码的散列地址 ;AUX(P) 指向确定所有这样键码的一个链接表， 
LINK(P) 指向这个表存储器中的另一个字。在处理任何表期间，每当访问带有 TAG(P) =2的一个 
字时，就重复地置 P—LINK(P)， 直到达到具有 TAG(P)<1 的一个字为止。（为了效率，我们也可以 

改变以前的链，使得今后不需要一再地跳过这些散列表的项。） 

为在这样的一个组合表中插入和检索键码，试定义一个适当的算法。 

15 . [ 16 ] 为什么算法 L 和算法0当 N = M -1 而不是当时警告溢出是一个好想法? 

16. [ J 0] 程序 L 指出， K 不应为0。但当 K 为0时，它是否就真正不能工作了？ 

17. [15] 当时，为什么不简单地在 (25) 中定义 h 2 ( K ) = h l ( K )? 

► 18. [2】 ] 作为程序 D 的行 10-13 的一个替换 ，（31) 比 （30) 好些还是坏些？试根据 A,S1 和 
C 的平均值，给出你的答案。 

19. [40] 试凭经验测试算法 D 中以下列方式限制 / i 2 (K) 的范围的效果 ：（a) 对于 r 二 1,2,3, 


■“10, 使得 l </ i 2 ( K ；)< r ;( b ) 对于 二点，盖，…，盖，使得 l ^ h 2 ( KX ， pM 0 


20 . [M25 ] (R.Krutar ) 改变算法 D 如下以免去散列函数 / i 2 ( K ): 在步骤 D 3 中置 




0;且 


在步骤 D4 的开始置 c—C + 1。试证明，如果 M = 2' 则对应的探査序列 hy ( K ) Ah l ( K ) - 1) 


mod M ， • 



mod M 将是|0，1， …， M _ ll 的 一 个排列。假定这个方法的特性与 


具有二次堆积的随机探査一样，则当把这个二次探査方法编成 MIX 程序时，该程序与图42中考虑 


的三个程序比起来是好还是坏？ 

► 21. [20] 假设我们希望从由算法 D 构造的一个表中删去一个记录，并如同正文中所建议的 
那样，标记它为“删去的”。试问，我们也应该把用以支配算法 D 的变量 N 减值吗？ 

22. [27] 证明箅法 R 使表保持好像它未曾在开头的位置被插人过 KEY[i] 那样。 

► 23. [33] 试设计类似于箅法 R 的一个算法，用于从通过算法 C 构造的一个拉链散列表中删 


去项。 

24 . [ M 20 ] 假设所有可能出现的键码的集合有个元素，其中恰有 P 个键码散列到任何 
给定的地址。（在实际情况下， P 是非常大的；例如当诸键码为任意的十进数字时，如果 M=10 3 , 
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则我们有 P = 10 7 。） 假设且 N = 7。 如果从所有可能的键码的集合中随机地选择七个不同 
的键码，则作为 M 和 P 的函数得到的散列序列为1 2 6 2 16 1( 即 hdhUhdW， …， h 

( K 7 ) = l ) 的精确概率等于多少？ 

25. [ MJ 9] 说明等式 （39) 为什么是正确的？ 

26 . [ M 20 ] 利用线性探查时，有多少散列序列产生如 （21) 那样的已占用单元的型式。 

27. [ M 27] 完成定理 K 的证明[提 示：设 

s ( n f jc f y ) = 2 { l) (x + - k) n - k ^{y - n ) 

使用 Abel 二项式定理，即等式 1 .2.6-( 16) ，来证明 s(n , x t y ) = x(x + y) n + ns ( n ~ l , x + l , y ~ 
1)]。 

28. [ M 30 ] 昔日的计算机比今天的慢得多，有可能观看指示灯的闪烁，并了解算法 L 运行多 

快。当表开始填满时，某些项将非常快地被处理，而其它的则花费大量的时间。 

这个经验提示，当使用线性探査时在一次不成功的査找中探查次数的标准差是相当高的。 
试求一个公式，它借助于在定理 K 中定义的 Q , 函数表达方差，并估计当 M — oo 且 N = aM 时的 

方差。 

29 . [ M 21 ] (停车问题）某单行道有排成一行的 m 个停放车辆的位置，其编号为1到 w 。 
一 个人和他的打瞌睡的妻子驱车过街，突然他妻子醒过来并命令他立即停车，他顺从地把车停在 
第一个可利用的位置；但如果没有剩下位置了，则他可以不必后退（即如果在他车子达到位置々 
时，他的妻子才醒过来，但位置々4 + 1,…， m 全都满了），他表示歉意并继续行驶。 

事实上，假设对”辆不同的小汽车发生此事，其中第 J 个妻子刚巧在停车位置七时醒过来。 

假定这条街道开始时是空的，而且在停车之后没有人离开，试问有多少个序列使所有的 

小汽车都能安全地停放？例如，当 772 = 71=9 和 a\ mm, ag ~ 3 1 4 1 5 9 2 6 5时，这些小汽车停放如 

下： 



[提 示： 使用对线性探査的分析。] 

30 . [ M 28 ] 在习题29的停车问题中，当 n 二 m 时，试证明所有的小汽车都能停放的充要条 
件是存在 U , 2,…，刹的一个排列仏九 …九， 使得对所有的 

31. [ M 40] 在习题29的停车问题中，当 n = m 时，解的个数已证明是 （rz + 1广 _1 ;而且从习 
题 2.3.4.4-22 我们知道，这和具有 U + 1) 个带标号顶点的自由树的个数相同！试求在停车序列 

和树之间的有趣联系。 

32. [ M 26] 证明每当60,6:，…， 6 mm 是和数小于 M 的非负整数时，方程组 （44) 有惟一解 
“0,0，…， CM _0。 试设计出求这个解的箅法。 

k 33 . [ M 23 ] 说明 （51) 为什么仅仅是由算法 L 所作的真正的平均探查次数的一个近似。在 
(50 的推导中有什么不是严格地精确的东西？ 

► 34. [ M 22] 本题的目的是研究：当诸表列像 （38) 那样保持分开时，在一个拉链的散列表中的 
平均探査次数。 

a ) 求 Pw ， 即当个散列序列 （35) 同等可能时，一个给定的表列有长度々的概率。 

b ) 求生成函数 Pjz ) = 

c ) 借助于这个生成函数，表达出一次成功的査找所需的平均探查次数。 

d ) 推导出在一次不成功的查找中的平均探査次数，并考虑采用下列约定的数据结构变形：（〖) 
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散列总是对一个表头进行（参见图 38);( ii ) 散列是对表的一个位置进行（参见图 40), 但除了一个 

表的开头之外所有的键码进入到一个分开的溢岀 区域； （ iii ) 散列是对表的一个位置进行而且所有 
项都岀现于散列表中。 

35 . [ M 24 ] 继续习题34,当各表列按照它们的键码值保持有序时，在一次不成功的査找当 
中平均探査次数是多少？考虑数据结构 （ i )、（ ii ) 和 （ iii )。 

36 . [ M 23 ] 继续习题 34( d )， 当査找不成功时，使用数据结构 （0 和 （ ii ), 求探査次数的 方差。 

► 37 .[^ 29] 公式 （19) 给出当査找成功时在分开的拉链中探査的平均 次数； 这个量的方差是 
多少？ 

38. [ A /32] (树散列）一个机灵的程序员可以尝试使用二分査找树以代替拉链方法中的线 
性列表，由此把算法 6.2.2 T 与散列结合起来。试分析通过这个复合的算法，对于成功和不成功 
的查找两者所需要的平均探查次数。[提 示： 参看式 5.2. 1-(15)]。 

39. [ M 2 S ] 设是当把箅法 C 应用于所有个散列序列 （35) 时形成的长度为 A 的列 
表总数。求关于数 c N U ) 的一个递推关系使得有可能确定对于和 

S n = S (》 ^ jc N ( k ) 

的一个简单公式。与用算法 C 作不成功査找时所需平均探查数的关系如何？ 

40 . [ M 33 ] 公式 （15) 给出在一次不成功的查找中由算法 C 所使用的平均探查次数，这个量 
的方差是多少？ 

41.1 M 40] 分析 T N ，即当通过算法 C 插入第 N + 1 个项目时下标只的值减1的平均次数。 

► 42.[ M 20] 推导（17)，即算法 C 立即成功的概率。 

43 . [ HM 44 ] 试分析使用大小为的一个表对算法 C 进行的一项修正。在这项修正 
中仅仅前 M 个单元被用于散列，所以在步骤 C 5 中找到的前 M ' - M 个空的节点将在这个表的额 
外单元中。对于固定的 M \ 在范围中选择什么样的 M 方能导致最好的性能？ 

44 . [ M 43 ] (有二次堆积的随机探查）这个习题的目标是确定具有探査序列 

h ( K ) ， ( h ( K ) + pi ) mod M , ( h ( K ) + p 2 ) mod M ，…， 

( h ( K ) + p M - 1 )mod M 

的开式寻址方案中预期的探査次数，其中…九^^是依赖于 A ( K ) 的一个随机选择的丨1，2, 

…， M -11 的排列。换言之，具有相同 / i ( iO 值的所有键码都遵循相同的探査序列，而且具有这一 
性质的 iW 个探査序列的 （ M -1)! m 种可能的选择都是同等可能的。 

这一情况可以通过对开始时是空的大小为 77 Z 的线性阵列实施的下列实验步骤来精确地模 

拟。进行如下操作 n 次：“ 以概率占用最左的空位置，否则（即以概率 q = l - 0), 选择表中除 

最左者外的任意位置，而且这 m -1 个供选择的位置是同等可能的。如果选出的位置是空的，则 

占 用它； 否则选择任何空的位置（包括最左边的）并占用它，同时认为每一个空的位置是同等可能 
的 。” 

例如，当 m =5和 ” =3时，在上述的实验之后的阵列配置将为（已占用，已占用，空，已占用， 
空）的概 率是： 

7.1 1 11 1 1 1 

\ g 2 qqq 十 Y 鲍 + ~6 qpq + 64 qqp + Y ppq + + ~^QPP 

(这个过程对应于当 p = llm 时的有二次堆积的随机探査，因为我们可以把表的项重新编号使得 
一 个特殊的探查序列是0,1,2,…而所有其它的都是随机的。） 

试求出在这个阵列左边的已占用位置（即，在上例中的 2) 的平均数的一个公式。并求当 p = 
1/ m ， rz = + 1) 和 /n — 00 时，这些量的渐近值。 
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45 . [ M 43 ] 当探查序列以 / i 1 ( X ),(/ i 1 ( K ) + / i 2 ( K )) mod M 开始，且随后的探査仅仅依赖 
于 /^( fO 和 / i 2 ( K ) 的随机选择时，求解具有三 次堆积 的习题44的类似情况。（于是，具有这一性 
质的 M ( M - l ) 个探查序列的 （ M -2)! m ( m _1) 种可能的选择，被认为是同等可能的。）这个过程渐 

近地等价于均匀探査吗？ 

46 . [ M 42 ] 试确定使用探査序列 


h ( K ) ,0,1, y h ( K ) - 1 y h ( K ) + 1 ，…， M - 1 
的开式寻址方法的 CT N 和 C N 。 


47 . [ M 25] 当探査序列是 

h ( K )， h ( K ) - l ,/ i ( K ) + l ， h ( K ) - 2， h ( K ) + 2,… 

时，试求为开式寻址所需要的平均探査数。这个探查序列曾一度被提出，因为当 M 为偶数时，连 

续探査之间的所有距离都是不同的。[提 示：找 窍门，这个问题很容易。] 

► 48.[ M 21] 给定互相独立的随机散列函数的一个无穷序列，试分析探査位置 


h l ( K ) 9 h 2 ( K ) f h 2 ( K ) 


，…的开式寻址方法。在这个方案下，有可能探査同一个位置两次,例如如 


果但在诸表变满之前，这样的偶然性很少可能。 

49 . [ HM 24 ] 推广习题34到每个桶有6个记录的情况，对于具有分开的表列的拉链，确定 
其平均的探査次数（即外部存储访问）和(：^，并假定在一次不成功的査找中含有々个元素的 

一个表列需要 max ( l ,^ - b + 1) 次探査。不像在习题34中那样使用精确的概率我们使用泊 


松近似 



N N - 1 
M M 



e ~ p p k 

k \ 


(1 + 0( k 2 lM )) 



当 iVf — oo 时，它对于 N = 成立。试推导公式 (57) 和 （58 )o 

50 . [ M 20 ] 证明，在 （ 42 ) 的记号下， Q 1 ( M ， N ) = M -( iVr -/ V - l ) Q () ( iVr ， iV )。 [提示 ：首先 

证明 Q 1 ( M , N ) = ( N + l ) Qo ( M , N )- NQo ( M , N - l )] 

51. [ HMJ 7] 借助于在 (42) 中定义的函数 Q c , 来表达在 （55) 中定义的函数 R ( a , n)o 

52. [ HM 20] 证明 e — Z (1 + 

Jo 

53. [ HM 20 ] 证明函数 i ? U ，72) 可借助于不完备的伽马函数表达，并使用习题 1.2.11.3-9 
的结果求出当72—⑺时，对于固定的 a < l , i ? U ， n ) 的渐近值直到 0( n _2 )。 

54 . [ HM 28 ] 证明当6 = 1时，等式 (61) 等价于等式(23)。提示：我们有 


/ X (- 1 广 — 1 V _(- na) m _ 

a n ! a m(m — l)(m ~ n — 1) ! 

7ft ^ Tl 


55. [ NM 43 ] 推广在定理 P 之后讨论的 SchaySpruth 模型到大小为 6 的 M 个桶的情况。证 
明 C ( z ) 等于 0 U )/( SU )-/)， 其中 0 U ) 是次数为6的多项式且 Q (1)=0。 证明探査的平均 


次数是 



M 

N 


(T(l) 



1 1 B "( l ) - b(b - 1)\ 

1 - g 6 -! —T ^ B ，（ l) 一 b ^ i 


其中〜，…，办^是 QUmz - 1) 的根。以泊松近似式 P ( z ) = 代替二项式概率分布 

B ( z ), 其中 a = N / M ?， 使用 Lagrange 求逆公式（参见等式2_3.4 .4-(21) 和习题4刀-8),简化你的 




518 




6.4 散列 



答案成为等式(61)。 

56 . [ HM 43 ] 推广定理 K ， 得到对于使用大小为6的桶的线性探查之精确分析。当这个表 

变满 （ N = M 6) 时，在一次成功的査找中探査的渐近次数是多少？ 

57. [ JVT 47] 若均匀地选定各探査序列的概率，是否能使 C N 的值相对 于所有 的开式寻址方 


法来说成为极小？ 

58 . [ M 21 ]( S . C . Johnson ) 求出在定理 U 的意义下等价于均匀散列的 l 0， l ，2,3,4 j 的10个排 


列。 

59 . [ M 25] 证明，如果选定排列的一个概率，它在定理 U 的意义下等价于均匀散列，则当 M 


充分大时,对于任何固定的指数 


具有非0概率的排列数超过 M 


60.[ M 47] 如果一个开式寻址方案恰好使用 M 个探查序列，其中每个序列以 / i ( iO 的每个 
可能的值开始，而每一个可能的值都以 1/ M 的概率出现，则称此方案为 单散列 方案。 

问（在为极小的意义下）最好的单散列方案是否渐近地比由 （29) 描述的随机方案更好? 


特别是当 oo 时，是否 C aM >l + j - a ^ j - a 2 +0( a 3 )? 

61. [ M 46] 在习题46中分析的方法，是否是在习题60意义下最坏的单散列方案？ 

62 . [ M 49 ] 如果在习题44的记号下，对于所有的 K 增量仏，/> 2 ，…， Am - :都是固定的，则称 

单散列方案是循 环的。 （这样的方法的例子是在习题20和 47 中考虑的线性探查和序列。）一个最 
优的单 散列方案是这样的一个方案，对于一个给定的 M ， 对于所有 （ M - 1)! M 个单散列方案说 
来，它的 C M 是极小的。当 M <5 时，最好的单散列方案是循环的。这对于所有的 M 都成立吗？ 

63. [ M 25] 如果在散列表中反复地进行随机的插入和删去，则平均需要作多少次独立的插 
入，才能使所有 M 个位置至少被占用过一次？（这是对单元简单地标记为“已删去”的删除方法 

出现故障的平均时间） 

64 . [ M 41 ] 试分析算法 R (通过线性探查的删去）的预期的特性。平均将实施步骤 R 4 多少 
次？ 

► 65.[20] (可变长的键码）在散列表的许多应用中，处理的是任意长字符串的键码。在这样 
的情况下，我们不能像在本节的程序中那样，把键码简单地存入表中。在 MIX 计算机上，在散列表 
中处理可变长键码的好方法应是怎样的？ 

► 66. [25 ](Ole Amble , 1973) 在开式散列表中插入键码时能否利用它们的数值或字母顺序，使 
得用算法 L 或算法 D 进行査找时，只要一遇到小于査找变元的键码，便知查找已失败？ 

67. [ M 41] 如果算法 L 以分别的散列地址…叫插入 N 个键码，令 < 是第 j 个键码同 

它的原地址屮的位 移量； 则 C N = l +( d ， d 2 + … + d N ) lN 。 定理 P 告诉我们诸 a 的排列对于和 

山 + A + …4没有影响。然而这样的排列却可能激烈地改变和4 + 4+… + 例如，散列 
序列 12 … iV - liV - 1 使 did 2 “. d N -' d N = Q 0 … 0 iV_l 和2# 二 （ N _ I ) 2 ,而它的反射 N - 1 N 

-1 — 2 1 导致温和得多的位移0 1 … 1 1， 对于它 2# = N -1。 

a ) a ia 2 - a N 的哪一个重新安排使极小化？ 

b ) 说明怎样来修改算法 L 使得在每次插入之后它维持位移量的一个极小方差集合？ 

c ) 确定带有和不带有这个修改的的平均值。 

68. [ M 41] 通过箅法 L 的一次成功査找中平均探査次数的方差是多少？特别是，在习题67 
的记号下（山+ A +…+ d N ) 2 的平均值是多少？ 

69. [ M 25] (姚期智）证明在习题62意义下的所有循环的单散列方案满足不等式 


(1 +1/(1- a ))。 [提 示： 证明一个不成功的査找恰好花费々次探査的概率是九 N )/ 


# 
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Mo ] 

70 . [ HM 43 ] 试证明使用双散列为插人第 （aM + 1) 项所需的预期探査数至多是使用均勻探 

査插人第 UM+VCKOog M )/ M )) 项所需要的预期数。 

71. [40] 当把算法 C 修改成如正文中所描述的那样适合于外部査找时，试对它的特性做实 
验 。 

► 72.[ M 2 S ]( 万能散列） 想像一个巨大的矩阵 H ， 它对于每个可能的键码都有一个列。 H 的 
元素被编号为0和 M -1 之间的数。 H 的行表示散列函数。如果 H 的任何两列至多在 R / M 行 
处相一致，其中 K 是行的总数，则说 H 定义 了散列函数的一个万能类。 

a ) 试证明，如果 H 是在这个意义下万能的，而且如果我们通过随机地选择 H 的一行来选择 
一个散列函数/ I ，则在分开拉链的这个方法（图 38) 中包含任何给定的键码 K 的表列的预 
期大小，在我们插入 N 个不同的键码1^,尺 2 ,…，的任何集合之后，将是<1 + JV / M 。 

b ) 假设 (9) 中的每个 A , 是随机地选择的从所有字符的集合到集合|0，1， …， M -1 丨的映射，证 
明这对应于散列函数的万能类。 

c ) 如果对于所有& (0) = 0, 但对于: r 关 0,\( x ) 是随机的， （ b ) 的结果仍将成立吗？ 

73. [ M 26] ( Carter 和 Wegman ) 证明，即使当 / i , 不是完全随机的函数时，上题的部分 （ 6 ) 仍 

成立，但它们有下列特殊形式之一 ：（ i ) 令七是二进数 （6^ — d …心心 ） 2 ,则 h } { x } ) = ( Mh ). 

l ) +…+ a i + a jo ^ jo ) mod M , 其中每个％是随机地选择 modulo iVf 的。 （ ii ) 设 iVf 是质 

数，并假定 iVf ， 则 hj ( xj ) = {apoj + bj ) mod M , 其中七和 6) 是随机地选择 modulo M 的。 

74 . [ M 29 ] 设 H 定义一个散列函数万能类。证明或反 驳：给 定任何 iV 个不同的列，并且随 
机地选择任何行，则在这些列中0的预期数是 0(1) 和 0( NjM ) 0 [于是，在分开拉链方法中的每 
个表列都将有这个预期的大小。] 

75 . [ M 26} 证明或反驳关于 (9) 的散列函数的下列命题，当\是独立随机函 数时： 

a ) 对于所有 = M 的概率是 1/ M 。 

b ) 如果 则对于所有= m 和 / i ( iT ) = 7^的概率是 1/ M 2 o 

0如果尺，尺 / 和尺〃不相同，则对于所有0<771，讲 / ，7^〃，7^<]^，/1(幻=饥，/100 =肌 / 和/1 

( iT ) = m 〃的概率是 1/ M 3 。 

d ) 如果 K , iT，]r 和 1 T " 不相同，则对于所有 ， m 〃， m '"< M ， h ( K ) = m t h ( K / ) - 

= m 〃和 / i ( iT )= 的概率是 1/ M 4 。 

76. [ M 2 i ] 提出一个方法对于具有可变长的键码修改 (9) ，并保持万能散列的性质。 

77 . [ M 22 ] 设 H 定义从32个二进位键码到16个二进位键码的散列函数的一个万能类（于 
是在习题72的记号下 H 有2 32 个列 ， M = 2 16 )。 一个256个二进位的键码可以看作是八个32个 
二进位部分 A « z 2 工 3 〜工 5 〜 a 〜的 连接； 我们可以通过散列函数 h ,( h 3 ( h 2 ( h l ( x l ) h l ( x 2 )) 

h 2 ( h l ( x 3 ) h l ( x A ))) h 3 ( h 2 ( h l ( jo 5 ) h l ( x 6 )) h 2 ( h l ( x 7 ) h : ( x s )))) ，把它映射到一个 16 个二进位 

的地址，其中 h lt h 2 i h 3 和 ； i 4 是 H 的随机和独立地选择的行。（这里，例如代表通 

过连接 A〆 :^) 得到的32个二进位的数。）试证明两个不同的键码散列到相同地址的概 

率小于2~ 14 。[这个方案要求比 （9) 少很多的随机选择。] 

She made a hash of the proper names , to be sure . 

为 了保险，她做了对于专用名字的一次散列。 

- Grant Allen (The Tents of Shem , 1889) 
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6.5 利用辅助键码的查找 

我们已经完成了对于主键码的查找，即唯一地确定文件中一个记录的键码查找 
的研究。但有时也有必要不是按主键码而是按记录中其它字段的值进行 査找； 这些 
其它的字段通常称 为辅助键码或 记录的属性。例如，在一个包含某大学学生信息的 
注册文件中，可能希望查找来自俄亥俄州不是专攻数学或统计学的二年级 学生； 或 
者查找所有未婚的说法语的研究生中的 女生； 等等。 ^ 

一般我们假定，每个记录包含有若干属性，而我们要查找其某些属性具有某些 
值的所有记录。指定所需记录的说明称作一个查询。查询通常限于下列三种类型。 

a ) 简单查询 ，它给出一个特定属性的一个特定 的值； 例如“ MAJ OR = MATHEM - AT - 

工 CS ” ；或者 “ RESIDENCE . STATE = OHIO ” 。 

b ) 范围查询 ，它给出一个特定属性值的一个特定的 范围； 例如 ， “COST < 
$18.00”; 或者“21 < AGE <23” 。 

c ) 布尔查询 ，它由与操作 AND , OR , NOT 相结合的上述类型 组成； 例如 

“ ( CLASS = SOPHOMORE ) AND ( RESIDENCE•STATE 二 OHIO ) 

AND N 0 T ( (MAJOR = MATHEMATICS ) OR ( MAJOR = STATISTICS ))，， 

对于这三类查询，发现有效查找技术的问题已经十分困难。因此，通常不再考 
虑更复杂类型的查询问题。例如，一个铁路公司可以有记载它的所有货车当前状态 
的一个 文件; 但不允许直接提像“找出在距西雅图500英里内所有空冷藏车”这类查 
询，除非“同西雅图的距离”是保存在每个记录内的一个属性而不是由其它属性导出 
的一个复杂函数。而且使用除 MD ，0 R 和 NOT 之外的逻辑量词，将引进仅仅受提出 
查询者的想像所限制的进一步的复 杂性; 例如，给定垒球统计的一个文件，我们可以 
问及在晚场比赛中最长的连续的击中表演。这些例子很复杂的，但它们仍可以通过 
扫描一个适当排列的文件来 处理; 其它的查询甚至更困难，例如，求在五个或更多的 
属性上有相同值的所有记录对（而不必确定哪一些属性必须匹配）。这样的查询可 
以认为属于一般程序设计的任务而超出了本书讨论的范围，但通常它们可被分成属 
于这里所考虑的问题类型的一些小问题。 

在我们开始研究辅助键码检索的各种技术之前，重要的是考虑这个课题的经济 
效益。尽管大量的应用都能塞进上面概述的三类查询的一般框框里，但是这些应用 
中有许多并不真正适合于我们将要研究的复杂技术，而且它们中的某些用人工做比 
用机器做倒更好些！人们攀登珠穆朗玛峰，“因为它是客观存在”，而且因为已经发 
展了使得攀登成为可能的 工具; 类似地，当面对着数据的高山时，人们试图在一个联 
机实时环境中，利用一台计算机找出对他们所能想像到的最为困难的查询的回答， 
而无需顾及代价。所期望的计算是可能的，但未必对每一个人的应用都合适。 

例如，考虑下列对于辅助键码检索的简单方法 ：在成 批化一些查询之后，我们可 
以顺序地进行对整个文件的查找，检索出所有有关的记录（“成批化”指的是在处理 
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任何查询之前，先积累起一批这样的查询）。如果文件不太大并且这些查询不需要 
立即处理的话，这个方法是十分令人满意的。甚至对于磁带文件也可以使用，而且 
它仅仅在计算机有空间时才使用它，所以就设备代价来说，它往往非常经济。而且 
它甚至能处理上面讨论的“到西雅图的距离”这样的计算查询。 

简化辅助键码检索的另一个简单方式，是提供给人们适当的打印好的索引信 
息，让他们自己做一部分工作。这通常是最合理和最经济的方式（当然，假定当打印 
新的索引时，旧的索引已被回炉）。特别是因为当人们能方便地访问大量数据时，他 
们倾向于去注意那些有趣的模式。 

对某些应用来说，上述简单方案的处理不能令人满意，这些应用都涉及非常大 
型的文件，对于这样的文件，查询的快速回答很重要。例如，如果不断地有好几个用 
户同时查询文件，或者如果这些查询是机器而不是人所生成的，就会岀现这种情况。 
在本节中，我们的目标是要了解在有关文件结构的各种假定之下，在通常的计算机 
上，对于辅助键码检索我们能做得多好。幸而，随着计算的费用继续显著地减少，我 
们将要讨论的方法在实用中正变得越来越可行。 

为了处理这 一问题 ，已经提岀了大量好的想法，但是（如同读者将能从所有这些 
预先警告式的注释中猜测到的那样）这些方法决不意味着它们都像主键码检索算法 
那样好。由于文件及应用的多样性，我们不可能对已经考虑到的所有可能性给出完 
备的讨论，也不可能分析每个算法在典型环境中的特性。本节的剩下部分介绍已经 
提出的一些基本方法，至于在每一个具体情况下什么样的技术组合是最适当的，这 
个问题留给读者自己去想。 

反文件 用于辅助键码检索的第一类重要的技术是反 文件的 思想。这并不意 
味着文件被上下颠倒，它指的是记录和属性的作用被逆转。我们不是列出一个给定 
文件的各属性，而是列出有一个给定属性的各记录。 

在日常生活中，经常地遇到反文件（在其它名称之下）。例如，对应于俄英字典 
的反文件是一部英俄字典。对应于本书的反文件是附于本书末尾的索引。财会人 
员传统地使用“双项簿记”，其中所有的交易同时记人现金账和顾客账，于是当前的 
现金状况和顾客的债务都很容易查阅。 

一 般地说，一个反文件并不是独立的，它要同原来的未反过来的文件一起使用。 
它提供了重复的冗余信息以便加速辅助键码的检索。每个反文件由一些反表列组 
成，即其某个属性具有给定的值的所有记录的表。 

正像所有的表一样，在一台计算机内的反表可以用许多方式来表示，而且不同 
的表示方式适用于不同的场合。某些辅助键码字段仅仅有两个值（例如，“性别”属 
性），而对应的反表却十 分长； 但是其它字段一般都有大量的值，而重复较少（例如， 
“电话号码”属性）。 

例如，想像我们要在一本电话簿中存储信息，使得所有的项都可以根据名字、电 
话号码或居住地址进行检索。一个简单的解决办法是作成三个分开的文件，分别面 
向对于每种类型键码的检索。另一个思想是组合这些文件，例如可以建立三个散列 
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表，分别用作拉链方法的表头。在后一种方案中，文件的每个记录将是这三个表中 
的一个元素，因而它将包含三个链接 字段； 这就是在 2.2.6 小节图13中说明过了的 
和下面要进一步讨论的所谓多重表方法。第三种可能性是模拟图书馆卡片目录，在 
那里作者卡片、书名卡片以及主题卡片分别按字母顺序排在一起，用类似的方式可 
把三个文件组合成一个超级文件。 

考察本书索引所用的格式，即可得到关于反表表示的进一步的思想。在有些辅 
助键码字段中，每个属性值一般有五个左右的项，此时我们只需作一个简短的顺序 
表，其中首先列出键码的值，后面跟以记录的位置(类似于一本书的索引中的页数）。 
如果有关的记录趋向于连续地堆积，则一个“范围说明”码（例如，页521〜 542) 是有 
用的。如果文件的记录经常要重新分配,则在反文件中使用主键码来代替辅助键码 
可能更好，使得当位置改变时也不必进行 更改； 例如，对于“圣经”段落的引用总是通 
过章和节给出，而对于某些书的索引都是基于节数而不是按页数给出的。 

这些思想当中没有一个特别适合于像“性别”这样两个值的属性。在这种情况 
下，当然仅仅需要一个反表，因为非男性必然是女性而且反之亦然。如果每个值同 
大约一半的文件项有关，则反表将惊人地长，但是，在一台二进计算机上可以使用一 
种二进位串表示法，每个二进制位确定一个具体记录的值， g 卩能相当好地解决这个 
问题。例如二进位串01001011101…可能意味着文件中的头一个记录指的是一个 
男子,第二个记录指的是一个女子，下两个记录指的都是男子，等等。 

这样的方法足以处理对特定属性值的简单査询。稍作推广即可以处理范围査 
询，不过必须用某个以比较为基础的查找方案 (6. 2节）来代替散列。 

对于像 “（MAJOR = MATHEMATICS ) AND ( RESIDENCE . STATE = OHIO )” 这样的布尔查 

询，我们需要把两个反文件交在一起。这可以用若干种方法来 进行； 例如，如果两个 
表都是有序的，则对每个表进行一次扫描将选出所有共同的项。或者，我们可以选 
出最短的表并考查它的每个记录，校验其它的属性；但这个方法仅对 AND 有效，而对 
OR 无效，而且它对于外部文件没有吸引力，因为它要对许多不满足查询要求的记录 
进行访问。 

同样的考虑表明，上面所描述的多重表组织，对于在一个外部文件上的布尔査 
询是低效的，因为它涉及许多不必要的访问。例如，想像如果本书的索引被组织成 
一个多重表的形式，则会发生什么情况。这意味着，索引的每个项都将仅仅指出提 
到该主题的最后 一页； 然后在每一页上，对于该页的每个主题，又有对于该主题的上 
一次出现的进一步索引。为了找出有关“[算法的分析]和[(外部排序）或（外部査 
找）]”的所有页面，必须翻动许多页。另一方面，通过只查看实际出现该索引的两个 
页，对反文件作简单的操作以便找出满足查询的页的最小子集，便可解决同样的查 
询问题。 

当一个反表被表示作一个二进位串时，简单查询的布尔组合当然容易实现，因 
为计算机可以用相当髙的速度对二进位串进行操作。在某些混合查询中，某些属性 
被表示作由记录号码排成的顺序表，而其它属性表示作二进位串，此时不难把顺序 
的表转换成二进位串，然后对这些二进位串实施布尔操作。 
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这里，给出一个假设的应用的定量例子，可能会有帮助。如同 5.4.9 小节所述， 
假定我们有每个为40个字符的1 000 000个记录，而且文件存储在 MIXTEC 磁盘上。 
文件本身因此填满两个磁盘组，反表大概将填满更多个磁盘组。每道包含5000个 
字符= 30 000个二进位，所以一个具体属性的反表至多花费34道（当二进位串的表 
示为最短时出现这个极大道数）。假设有一个稍微复杂些的查询，它涉及10个反表 
的一个布尔 组合； 在最坏的情况下，我们将要从反文件读340道的信息，总共花费 
340 x 25 ms = 8.5 s 的阅读时间。平均的等待延迟将大约是读时间的一半，但通过小 
心的程序设计有可能消除这个等待。通过把每个二进位串表列的第一个道存入一 
个柱面中，而每个表列的第二个道存于下一个柱面当中等，将消去大多数寻找时间， 
所以我们可以估计寻找时间至多大约是 34 x 26 ms ~0.9 s (如果包含有两个磁盘组， 
则是这数的两倍）。最后，如果(？个记录满足查询，则对于每个记录，我们将花费大 
约 gX (60 ms (寻找）+ 12 .5 ms (等待 ）+0.2 ms (读 ）） 的额外时间来取出它以便进行 
下一步处理。于是，为处理这个稍为复杂的查询，总计预期时间的乐观估计大约是 
<(10 + 0.073 9 )s o 这与在同样的假定下但不使用任何反表以最高速度读整个文件 
的 210 s 时间形成对照。 

这个例子表明在磁盘存储中空间的最优化同时间最优化是紧密相 关的； 处理反 
表的时间大致就是寻找和读它们所需的时间。 

上面的讨论或多或少假定，当我们查询文件时，它不增长或 收缩； 如果需要经常 
更改，则应该作什么呢？在许多应用中，只需累积一批更改的要求，而且当不需要回 
答查询时，在空闲的时间里处理它们即可。或者，如果更改的文件优先级较髙，则 B 
树 (6.2. 4小节）的方法是有吸引力的。反表的整个集合可被作成一个巨大的 B 树， 
同时对叶作特殊的约定使得分支节点包含键码的值，而诸叶既包含键码又包含记录 
指针的表。对文件的修改也可通过我们以下将要讨论的其它方法处理。 

几何数据 大量的应用涉及在二维或更多维的空间中的点、线和形状。解决面 
向距离的最初的方法之一是由 Bmce McNutt 于1972年提出的“邮局树”。例如，假 

设给定: r 的值，我们希望来处理像“最靠近 x 的城市是哪一个？”这样的查询。 Mc ¬ 
Nutt 树的每个节点对应于一个城市 ^ 和一个“测试半径” r ; 这个节点的左子树对应 
于随继进入树的这个部分的所有城市使得从和％的距离 + 类似地右子 
树是对于距离3的那些城市。这里3是一个给定的容差。和^的距离在 r _ 
占和 r + 5之间的城市必须进入到两个子树中。在这样一株树中的查找使得找出在 
一个给定点的距离5之内的所有城市成为可能（参见图45)。 

McNutt 和 Edward PHng 基于这个思想进行了若干次试验，并且以随机次序使 
用了美国大陆中231个人口最多的城市作为一个示例数据库。他们以有规则的方 
式使测试半径收缩，当向左时以 0.67 r 代替，而当向右时以 0.57 r 代替，但当取两个 
连续的右分支的第二个时 r 维持不变。结果是，在对于5 = 20英里的树内，要求 
610个节点，而对于 r = 35 英里的树内要求1600个节点。图45示岀他们最小的树 
的顶层几级。（在这株树剩下的一些级中佛罗里达的奥兰多出现在杰克逊维尔和迈 
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Las Vega^ NV 

1800英里 


Wichita Falls TX 

1206 英里 



Davenport IA 

808 矣里 



Sacramento CA^I 



英里 


f Lexington 

L 541 英 




7 


# 



Boise ID 

460 英里 



Ce 




Tampa FL 

1026 英里 


ugene OR 

160 英里 


Worcester MA 

460 英里 


Jacksonville FL 

391 英里 




FL 
687 英里 



图 45 “邮局树”例子的顶部诸级。为了查找一个给 定点: r 附近的所有城市， 

由根点开始 ：如果 X 在距离拉斯维加斯1800英里之内则向左，否则就 向右； 

然后重复这过程直到遇到一个终端节点。树构造的方法确保在这个査找期间 

将会找到所有和工的距离在20英里之内的城市 

阿密之下。某些城市十分频繁地 出现; 例如，这些节点中有 17 个都是马萨诸塞州的 
布洛克赖！） 

随着5的增加，文件的迅速增长表明，邮局树大概有有限的用途。通过直接地 
使用每个点的坐标，并把坐标当作属性或辅助键码，我们可以做得 更好； 然后我们可 
以基于键码的范围来作布尔查询。例如，假设文件记录涉及北美诸城市，而且查询 
问及满足 


(21.49° < 纬度 < 37.41°) AND (70.34° < 经度 < 75.72°) 


的那些城市。查阅地图可看出，许多城市满足这个纬度范围，必有许多城市满足经 
度范围，但是很难有任何城市处于这两个范围之中。解决这样的正交范围查询的一 
个方法是相当粗略地分划所有可能的纬度和经度的值，且每个属性仅仅有很小几类 
(例如，通过在下一个较小的5°的倍数处截断），然后对于每一（纬度，经度）类组合有 
一 个反表，这就好像有对于每个局部区域各一页的地图。利用5°的区间，上边的查 
询将参考八个页，即（20°，70°)，（25°，70°)，‘"，（35°，75°)。现在需要对于这些页中的 
每一页处理范围查询，或者通过在这个页内进行一个更细的分划，或者通过直接查 
阅诸记录本身，采用哪种方法依赖于对应于该页的记录个数。在某种意义下，这是 
在每个内部节点处具有二维分支的一个树结构。 

对于这个方法的一个实质性的精心改进，称作一个格子文件，是由 J . Niev - 


ergelt , H . Hinterberger 以及 K . C . Sercik 研制的 [ACM Trans . Database Systems 9 


(1984),38 〜 71]。 如果每个点 o ： 都有々个坐标 （ a ，…， &)， 他们把第 i 个坐标的值 


划分成以下的范围 


=^0 < gil < *** < gir. = + 

I 



并且通过确定下标 ( h ，… ，&) 使得对于是， 

0 < Ji < ^ ^ gtj. < 

r f 
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来找出： T 。 有一个给定的（^，…，乂）的值的所有点称为 单元。 在相同单元内的点的 

记录存人外部存储的相同的桶当中。假定每个桶对应于一个々维的矩形区域或者 
“超单元”，则也允许桶包含来自若干相邻的单元的点。可能有各种用于修改格子边 
界值私和用于分开和合并桶的 策略； 例如，参见 K . Hinrichs , B/T 25 (1985),569- 

592； M . Regnier ，BIT 25( 1985) ,335 ~357； P . Flajolet 和 C . Puech JACM 33 (1986), 
371 〜 407, §4.2 分析了带有随机数据的格子文件的特征。 

使用所谓的 四叉树 结构， J . L . Bentley 和 R . A . Finkel 引进了处理正交范围查询 
的一个更简单的方法 [Acfa Informatica 4 (1974) ，1〜 9]。在他们构造的二维情况 
下，这样一株树的每个节点表示一个矩形，而且在该矩形中包含诸点之一。有四个 
子树，相对于给定点的坐标，他们对应于原来的矩形的四个像限。类似地，在三维 
中 ，有八 路分支，而且有时把树叫做八叉树。一个6维的四叉树有 Y 路分支。 

对于随机四叉树的数学分析十分困难，但在1988年，由两组研究人员独立地工 
作，确定出在一个随机的々维四叉树中对于第 N 个节点的预期的插人时间的渐近 
形式是 


I 1 … 0 ⑴ 


(3) 


参见 L.Devroye 和 L . Laforest , S/COMP 19 (1990) ,821 〜832 ; P . Flajolet ， G . Gormet , 
C . Puech 以及 J . M . Robson ， A/gorithmica 10 (1993) ， 473 〜500。注意当 k = 1 时，这 
个结果同对于一^个二分查找树的插人的著名公式，即等式 6.2.2-(5) —致。 P . Flajo ¬ 
let , G . Labelled . Laforest 和 B . Salvy 事实上证明了，平均内路径长度可以以令人惊 
讶地优美的形式 



来加以表达，而且因此借助于超几何函数有可能对于随机四叉树作进一步的分析。 
[参 jSLRanc/om Structures and Algorithms 7 (1995) ， 117 〜 144]。 

通过引进 “ Id 树”， Bentley 甚至更进一步地继续简化四叉树表示，这种树在每 
个节点处仅有两路分支 。 [CACM 18 (1975 ),509~ 517 ；/£EE Transactions SE-5 
(1979),333 〜340]。如同在 6.2.2 小节中那样，一个 l _ d 树就是一个通常的二分查 
找树;一个 2- d 树也类似，但是当分支时在偶极上的节点比较: r 坐标，而在奇级上的 
节点比较^坐标。 一 般地说，一个 fd 树有带 A 个坐标的节点，而且在每级上的分 
支仅仅基于坐标 之一； 例如，我们可以在级 Z 上按坐标数0 mod 0 + 1来分支。可 
以使用基于记录的顺序号码或在内存中的位置的打破平衡规则以确保没有两个记 


录在任何坐标位置中一致。随机地增长的 々_ d 树结果证实和通常的二分查找树有 


相同的平均路径长度和形状分布，因为构成它们增长基础的假定和在一维情况下是 
—样的（参见习题 6.2. 2-6)。 


如果文件不动态地变化，我们可以通过选择在每个节点进行分支的中间值，来 
平衡任何 N 节点的 々- d 树，使得它的髙度 〜 lg N 。 于是我们可以确信，若干基本类 
型的査询都将被有效地处理。例如， Bentley 证明，我们可以在步内标识 


# 
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出有〖个确定的坐标的所有记录。如果坐标中的 z 个被限制为子范围而且总共有 g 
个这样的记录，我们也可以在至多 0( rN 卜 1 M + g ) 步内找出位于一个给定的矩形区 
域内的所有记录[李德财和黄泽权 ， Acta Informatica 23 (1977) ，23〜 29] 。事实上， 

如果给定的区域接近是立体的而且 g 很小，以及如果在每个节点用于分支所选定的 

坐标有最大的散开的属性值， Friedman，Bentley 和 Finkel [ACM Trans . Math. Soft¬ 
ware 3 (1977),209 〜 226] 证明，对于这样一个区域查询的平均时间将仅仅是 0 (log 

N+q) 0 当在々 维空间中对于一个给定的点最接近的邻域查找这样的 Id 树时，同 
样的公式适用。 

当 々_ d 树是随机的而不是完美地平衡时，对于 z 个确定的坐标的部分匹配的平 
均运行时间稍微增加成这里函数/是由以下方程 

(fix) + 3 - x) z (f(jo) +2 - x) l ~ x = 2 (5) 

含蓄地定义的，因而它十 分小； 我们有 


0 < f(x) < 0.06329 33881 23738 85718 14011 27797 33590 58170 — (6) 

而且当接近于 0.585 时出现极大值。[见 P. : Flajolet 和 C. FuechJACM 33 
(1986), 371 〜 407, §3 ]。 

由于几何算法的艺术魅力和巨大重要性，在解决高维查找问题以及许多类型的 
相关问题的技术方面有了巨大的增长。确实，自 20 世纪 70 年代以来，称为计算几 
何学的数学和计算机科学的新的子领域已经迅速地发展起来。由 J.E.Goodman 和 

J.O’Rourke 主编的 TTie Handbook o/ Discrete and Computational Geometry (佛罗里 

达州波卡 拉顿: CRC 出版社， 1997) 是直到 1997 年为止关于该领域的技术发展现状 
的一本出色的参考书。 

Hanan Samet 在两本互相补充的书 The Design and Analysis o/ Spatial Data 
Structure 以及 Applications of Spatial Data Structures (Addison-Wesley ， 1990) 中，已经 

给出了关于二维和三维对象的重要特殊情况的数据结构和算法的广泛的综述。 
Samet 指岀，现在把 Bentley 和 Finkel 原来的四叉树叫做“点四叉树”更适当。“四叉 

树”这个名称本身已经成为对于几何数据的任何层次分解的一个普通的术语。 

复合属性 有可能把两个或多个属性组合成一个超级属性。例如，一个 
“（ CLASS , MAJOR ) 属性”可由一个大学的注册文件的 CLASS 字段和 MAJOR 字段组合而 

成。这样以来，用不相交的短的表的并代替较长的表的交，常常可满足查询的需要。 

林耀桑进一步发展了属性组合的思想 [CACM 13 ( 1970 ),660-665], 他建议从 

左到右地按字典顺序排列组合属性的反表，且拷贝许多份，并以一种巧妙方式排列 
组合中的各属性。例如，假设我们有三个属性 A ， B ， C ; 则可以形成三个复合属性 

(A,B,C), (B,C,A), (C,A,B) (7) 

而且对于其中的每一个，构造有序的反表。（于是在第一个表中，诸记录以它们 A 值 
的顺序出现，而所有具相同 A 值的记录以 B 值的顺序，然后再按 C 值的顺序出现）。 
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这种组织有可能满足以三个属性的任何组合为基础的 查询； 例如 ， A 和 C 有特定值的 
所有记录都将连续地出现于第三个表中。 

类似地，由四个属性 A , B ， C ， D ， 我们可以形成六个组合属性 

( A ， B ， C ， D )， ( B ， C ， D ， A )， ( B ， D ， A ， C ), ( C ， A ， D ， B ), 

( C , D , A , B ), ( D , A , B , C ) (8) 

它们足以回答有关这些属性中一个、两个、三个或四个值的简单查询的所有组合。 

有一个一般的过程可从 n 个属性构造出个组合属性，其中这使得有 

至多々 个或至少个属性值的特定组合的所有记录，都将在组合的一个属性表中 
连续地出现(见习题1)。或者，当某些属性只有有限个值时，我们只需较少的组合 
就可以了。例如，如果 D 只是一个二值的属性，则通过把 D 放在 （7) 的前边得到的三 
个组合 


( D , A ， B ， C ), ( D , B , C , A ), ( D , C , A , B ) (9) 

几乎将和 （8) — 样地好，而且只有一半的冗余，因为不依赖于 D 的诸查询，可以只通 
过考察这些表之一的两个位置来进行处理。 

二进属性 考虑所有属性都是二值的这一特殊情况是有教益的。在某种意义 
下，这是把属性组合起来的 对立面 ，因为我们可以把任何值表示成为二进数，而且把 
这个数的个别的二进位认为是分开的属性。表1示出了涉及“是否”属性的一个典 
型 文件； 在这个情况下，诸记录代表被选定的甜饼的食谱，而诸属性确定使用哪些成 
分。例如，杏仁风味薄脆饼是用黄油、面粉、牛奶、坚果仁以及颗粒糖制造的。如果 
我们把表1想像作0和1的矩阵，则该矩阵的转置，就是在二进位串形式下的“反” 
文件。 

表1的右边一列用来指出很少出现的特殊项目。比起为每个项目都设一列来， 
这样的方式可以更有效地进行 编码； “玉米淀粉”这一列可以类似地处理。对偶地， 
我们可以发现对于“面粉”这一列进行编码的更有效的方式，因为面粉在除蛋白甜饼 

之外的每一行当中都出现。但现在我们把这些考虑放在一边，而简单地忽略“特殊 
成分”一栏。 

让我们定义二进属性文件中的一个 基本查 询为： 对于在某些列中值为0和在其 
它列中值为1，以及在剩下的列中值为任意的所有记录的一个请求。利用“* ”来代 
表一个任意的值,我们可以把任何基本查询表示为诸 0，1 和 * 的序列。例如，考虑 
喜欢某种椰子饼干，但却厌恶巧克力，讨厌茴香，以及不喜欢提纯香精 的人； 他可以 
描述查询如下 

* 0 **** 0 ** 1*******************0 ( 10 ) 
现在表1指出甜美条恰是这种东西。 

在考虑为基本查询而组织文件的一般问题之前，先来考察没有指定0值，而仅 
仅指定1值和 * 值这种重要的特殊情况。如果我们假定1表示存在的属性，而0表 
示不存在的属性，则这可以叫做一 个包含 查询，因为它问及包括某个属性集合的所 
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图 46 —张带槽口边的卡片 

一个特性卡片系统以类似的方式对反文件进行工作。在这种情况下，每个属性 
有一张卡片，对于具有该属性的每个记录，孔就穿在这张卡片的指定位置上。因此， 
一张通常的80列卡片可用来告知12 x 80 = 960个记录中，哪一个有给定的属性。 
为了处理一个包含查询，先选出特定属性的特性卡片并把它们放在 一起； 然后，光线 
穿过对应于所要的记录的所有位置。这个操作类似于上面所说明的求颠倒的二进 
位串之交来处理布尔查询的情况。 

叠加 的编码我们对于这些人工卡片系统有特殊兴趣的原因在于已经想岀了 
一 些精巧的方案来节省带槽口边的卡片上的 空间； 同样的原理可应用于计算机文件 
的表示上。叠加的编码是一项类似于散列的技术，而且在发现散列之前若干年，实 
•际上它就被发明了。其思想是把诸属性映射到一个 n 位字段的随机6位代码中，并 
且对于记录中所出现的每一个属性的编码进行叠加。对某个属性集合进行的包含 
查询可以被转换成对于对应的叠加的二进位码的包含查询。额外的少量记录可能 
满足这个查询，但是这种“假情报”的个数在统计上是可以控制的[参考 Calvin N - 
Mooers , Amer . Chem . Soc . Meeting 112 (1947 年 9 月）， 14 E -15 E ； American Documen ¬ 
tation 2 (1951) ， 20 〜 32] 0 

作为叠加编码的一个例子，我们再次考虑表1，但是不考虑像发酵粉、松酥油 
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有记录。例如，在表1的食谱中，既要求发酵粉又要求发酵苏打的，是浇糖姜汁饼和 
旧式家常糖饼。 

在某些应用中，提供包含査询这种特殊功能就足够了。例如，在许多人工卡片 
文件系统的情况下就出现这种情形，诸如“带槽口边的卡片”或“特性卡片”。一个对 
应于表1的带槽口边卡片系统，对于每种花色将有一张卡片，而且对于每一成分都 
有穿出的孔（见图46)。为了处理一个包含查询，卡片文件排成一叠而穿针放置在 
每个列中对应于所需属性的位置上。在提起穿针之后，有适当属性的所有卡片都将 
落下。 
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脂、蛋、面粉这样的基本成分，而仅仅考虑调味品。表2表明，如果我们对于每 


个 


调味品的属性都指定10个二进位字段中的2位随机代码，并叠加这些编码，将发生 
什么情况。例如，巧克力薄片小甜饼的项目，是通过叠加巧克力、坚果仁和香精的代 

码而得 到的： 


0010001000 V 0000100100 V 0000001001 




0010101101 


这些代码的叠加，也产生了某些假的属性，在这种情况下即多香果，蜜饯樱桃，葡萄 
肉冻，花生黄油，以及胡椒;这些将引起在某些査询中岀现假情报。（而且它们也提 

出了建立一个称为假情报家常饼的新品种！） 

叠加的编码实际上在表2中不能非常有效地工作，因为该表是有着大量属性存 
在的一个小例子。事实上，苹果酱香味方饼对于 每个查 询都将是一个假情报，因为 
它是通过叠加7个代码得到的，而结果是覆盖了全部十个位置；而圣诞小酥饼甚至 
更坏，它通过叠加12个代码得到！另一方面，表2在某些方面却工作得惊人 地好; 
例如，在查询“提纯香精”时，只有圣诞小酥饼的记录作为假情报出现。 


如果我们有，比如说，一个32位的字段以及 


32 



4960种不同属性的组合，其 


中允许每个记录具有多达六个属性，而且每个属性通过指定32个二进位中的3位 
来编码，则出现更适合的叠加编码的例子。在这种情况下，如果假定每个记录有六 
个随机选择的属性，则在一个包含查询中假情报的概率 


在一个属性上是 
在两个属性上是 
在三个属性上是 
在四个属性上是 
在五个属性上是 
在六个属性上是 


.07948358 
.00708659 
. 00067094 
.00006786 
• 00000728 
. 00000082 


( 11 ) 


表2 


叠加编码的 


个例子 



个别调味品的代码 


提纯杏仁 

0100000001 

枣 

1000000100 

多香果 

0000100001 

姜 汁 

0000110000 

茴香籽 

0000011000 

蜂 蜜 

0000000011 

苹果酱 

0010010000 

柠檬汁 

1000100000 

杏 

1000010000 

柠檬皮 

0011000000 

香 蕉 

0000100010 

肉豆蔻干皮 

0000010100 

蜜饯櫻桃 

0000101000 

糖 浆 

1001000000 

小豆蔻 

1000000001 

肉豆蔻 

0000010010 

巧克力 

001000X000 

坚果仁 

0000100100 

桂 皮 

1000000010 

桔 子 

0100000100 

香 橼 

0100000010 

花生黄油 

0000000101 
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(续） 

1 丁香 

0001100000 

胡 椒 

0010000100 I 

椰子 

0001010000 

' 梅脯 

0010000010 

咖啡 

0001000100 

葡萄干 

010100000 

葡萄肉冻 

0010000001 

提纯香精 

0000001001 



叠加的代码 


杏仁风味薄脆饼 

0000100100 

圆腿肉面包 

1011110111 

苹果酱香味方饼 

1111111111 

蛋白甜饼 

1000101100 

香蕉燕麦片家常小甜饼 

1000111111 

摩拉维亚香味家常甜饼 

1001110011 

巧克力薄片小甜饼 

0010101101 

燕麦枣椰子条饼 

1000100100 

椰子杏仁饼 

0001111101 

旧式家常糖饼 

0000011011 

奶油乳酪小甜饼 

0010001001 

花生黄油风车饼 

0010001101 

美味梅脯条饼 

0111110110 

裙状燕尾饼 

0000001001 

双料巧克力糖饼 

0010101100 

佩佛纽斯 

1111111111 

奶油条饼 

0001111101 

苏格兰燕麦脆饼 

0000001001 

带馅半圆形卷饼 

1011101101 

星状脆饼 

0000000000 

芬斯卡•卡客饼 

0100100101 

春饼 

0011011000 

浇糖姜汁饼 

1001110010 

斯普里兹甜饼 

0000001001 

胡桃葡萄干甜饼 

1101010110 

瑞典套圈饼 

0000000000 

宝石家常甜饼 

0010101101 

瑞士桂皮香脆饼 

1000000010 

环形甜薄饼 

1000001011 

太妃条饼 

0010111101 

1 波纹套圈饼 

1011100101 

香精果仁冰镇家常饼 

0000101101 


于是，如果有 M 个不真正满足两属性查询的记录，则其中大约有 .007 M 个叠加的 
代码将虚假地符合两个指定属性的所有代码位（这些概率在习题4中计算）。在反 
文件中所需的总的二进位仅仅是记录数的32倍，不到在原来的文件中确定属性所 
需要的二进位数的一半。 

如果使用小心地选择的非随机代码，则如同 W . H . Kautz 和 R . C . Singleton 所证 
明的，有可能使用叠加代码而不出现任何假情报，见 Trans ， IT 10 (1964),363 
〜 377;关于它们的构造之 一 见习题16。 

Malcolm C . Harrison [CACM 14 ( 1971 )，777〜779 ] 已经发现，叠加的编码可被 

用来加 速文本查找。 假定我们要在一个长的文本中找出一个特定字符串的 所有出 
现，又不用像在算法 6.3 P 那样构造很大 的表； 而且假定，该文本被分成为例如每个 

有50个字符的行 c x c 2 '^ c 50o Harrison 建议通过把49 个对偶（:，…， C49C50 

中的每一个，比方说，散列成为0〜127 之间的一 个数； 则行… c 5() 的“标记”是 
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128个二进位 心心… 6 127 的串，其中 b ^\ 当且仅当对某个 + 

如果我们现在要在一个称为 HAYSTACK 的大型文件中查找字 NEEDLE 的所有出 
现，则只需考察所有其标记在 / iUE )，/ i ( ES )，/ i ( ED )，/ i ( DL ) 和 / i ( LE ) 的位置上包含 
二进位1的行。假定散列函数是随机的，一个随机行在它的标记中包含所有这些二 
进位的概率仅仅是 0.00341( 参考习题 4); 因此，五个反表的二进位串的交将迅速查 
岀包含 NEEDLE 的所有行，连同少量的假情报在一起。 

随机性的假定在这个应用中并不非常有道理，因为典型的文件有如此多的冗余 
性； 在英语词汇中，相邻字母对的分布是高度有偏向性的。例如，拼弃包含有一个空 
白字符的所有对偶^~ + 1 大概将是非常有帮助的，因为空白通常比任何其它符号更 

为常见得多。 

Burton H . Bloom 已经提出了叠加编码对于査找问题的另一个有趣的应用 
[CACM 13 (1970) ,422〜 426] ;他的方法实际上适用于 主键码 的检索，然而在本节 
中讨论它却是最适当的。想像一个大型数据库的查找，而且在这个大型数据库中， 
如果查找是不成功的，就不需要进行计算。例如，我们有可能需要校验某人的信贷 
定额或护照号码等等，如果此人的记录在文件中没有出现，则无需作进一步的研究。 
类似地，在用计算机排字时，我们可以有一个简单的算法，它正确地连接大多数的 
字，但对大约50 000个例外的字它是失 败的； 如果我们没有发现例外文件中的字， 
就可以放心地使用这个简单的算法。 

在这样一些情况下，有可能在内存中保持一个二进位表，使得在文件中不出现 
的大多数键码可以被认为是不存在的，而无需进行对外部存储 的任何 访问。做法 
是 :设内 部二进位表是 心心 - iMM ， 其中 M 相当大，对于文件中的每个键码，计 

莫 k 个独立的散列函数并且置相应的6个6成为 1( 这6个值 

不必是不同的）。于是当且仅当对于某一个7和 = z 时匕=1。现在来确定 

一个查找变元 K 是否在外部文件中，首先测试对于，是否有 b h ( K ) = 1;如 

果不是，则不需要访问外存，但如果是，则若^和 M 已适当地选择 ，一 个通常的查找 
大概将找出 K 。 当在文件中有 iV 个记录时，出现一个假情报的机会近似地为（1- 
八 w / M 疒。在某种意义下， Bbom 的方法把整个文件处理成为一个记录，以主键码 
作为存在的属性，而且在一个庞大的个二进位的字段中存放叠加编码。 

Richard A . Gustafson 已经发展 / 叠加编码的另一'种变形 [ Univ . South Carolina , 

1969] o 假设我们有 iV 个记录，而且每个记录具有从10 000种可能的属性的集合中 
选出的六个属性。例如，这些记录可以代表技术论文，而属性可以是描述这篇文章 
的关键词。设/ I 是一个散列函数，它把每个属性映射到0和15之间的一个数。如 
果一个记录有属性 q ， a 2 ，…， a 6 ，则 Gustafson 建议把这个记录映射成为16个二进 

位的数，其中匕=1当且仅当对某个 = 而且，如果这个方法仅 
导致诸6中的々个等于1，这里々<6,则另外的6 -々个1由某种随机方法提供之 

(不必依赖于记录本身）。在= 8008种十六个二进位的代码中恰有六个1岀 
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现，而且碰巧大约有 N /8008 个记录将被映射到每个值上。我们可以保持诸记录的 
8008个表，利用一个适当的公式直接计算对应于地址。事实上，如果 

在位置0</^</^<0”<夕 6 中出现1,则函数 



( Pe \ 
\ 6 / 


将把每个串心卜…〜转换成数0和8007之间的惟一的数，我们在习题 1.2.6-56 和 
2.2.6-7 中已经看到了这一点。 

现在，如果要找出具有三个具体属性 Ai ， A 2 , A 3 的所有记录，则我们计算 


ZiUJ ，/ i ( A 2 ) ，/ i ( A 3 ); 假设这三个值是不同的，我们仅仅需要考察存储在= 

286个表中，且其二进制代码在这三个位置中包含1的诸记录。换言之， 

在查找中仅仅需要考察286/8008^3.5%的记录。 

关于叠加编码的一个精彩的讲述，连同它对于电话号码目录表的大型数据库的 
应用，参见 C . S . Roberts/roc 67 ( 1979 )，1624〜1642 。 J ■ K . Mullin 和 D . J . 
Margoliash ^Software Practice & Exper . 20 (1990) ,625 〜 630 讨论了它在检查拼写软 

件中的应用。 


组合散列 奠定刚刚描述的 Gustafson 方法的思想是找出某种方法把记录映射 
到内存单元，使得仅有较少的单元同一个具体查询相关联。但是当各记录只有较少 
的属性时，他的方法仅可应用于包含査询。另一类映射设计来处理像 （10) 那样由诸 
0,1和 * 组成的任意基本查询，它是由 Ronald . L . Rivest 于1971年发现的[见 

SICOMP 5 (1976),19-50 ] o 

首先，假定我们要编写对于所有具有六个字母的英文字的一部交叉字谜字典， 
一个典型的査询可以是，比如说，查问所有具有形式 N * * D * E 的字，而得到的回 

答是 | NEEDLE , NIDDLE , NODDLE ， NOODLE , NUDDLEU 这个问题可巧妙地解决如下 ：建立 

2 12 个表，把字 NEEDLE 翻成表号 

h ( N ) h ( E ) h ( E ) h ( D ) h ( L ) h ( E ) 

这里 / i 是一个散列函数，它把每个字母变成一个二进位值。把6个二进位对放在一 
起，即得一 12 位的表地址，因此，为了回答查询 N * * D * E , 仅需査看 4096 张表中 
的 64 张表。 

类似地假设我们有1 000 000个记录，每个记录含10个辅助键码，其中每个辅 
助键码有相当量的可能的值。我们可以把辅助键码为，…， K 1Q ) 的诸记录映 

射到20位的数 

MKJ/iUJh/iUk)) (12) 

上，其中 / i 是把每个辅助键码映成2位值的散列函数 ，（12) 表示这10个二进位对偶 
的并列。这个方案把1 000 000个记录映射成为2 20 = 1 048 576个可能的值，而且 
可以把总共的映射当作具有 M = 2 2 G 的一个散列 函数; 拉链可用来解决冲突。如果 
我们要检索其任何五个辅助键码具有特定值的所有记录，则仅需要考察 2 1 G 个表，对 
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应于 （12) 中的五个未确定的二进位 对偶; 所以平均仅仅需要考察大约1000 = #个 

记录。 （ 一 个类似的方法已由 M . Arisawa , J . Inf . Proc . Soc . Japan 12 (1971 ),163 〜 

167 和 B . Dwyer (未发表）提出。 Dwyer 提出使用比 (6) 更灵活的映像，就是 

+ / i 2 ( K 2 ) + …+ / i 10 ( K 10 )).mod M 

其中 M 是任何合适的数，而圮可能是形式的任意散列函数，其中％是“随 
机”的。 

Rivest 已经进一步发展了这个思想，使得在许多情况下，我们有下列的状况。 
假定有 N 〜2” 个记录，每个有 m 个辅助键码。每个记录以这样一种方式映射到一 
个 n 位的散列地址上，即任何不指定 A 个键码的值的查询近似地对应于个散 
列地址。在本节中 （ Gustafson 的方法除外），我们已经讨论过的所有其它的方法，都 
需要用阶为 N 的步骤进行检索，尽管比例常数 很小； 对于足够大的 N , Rivest 的方 
法将更快，而且它不需要反文件。 

但是在我们能应用这项技术之前，要定义一个适当的映像。这里是具有小参数 
的一个例子，当和 n =3 以及所有辅助键码的值都是二进 数时； 我们可以把4 
位记录映射成为八个地址 如下： 

* 0 0 1 0 

^ 1 





110* — 3 001* — 7 

对这个表的考察揭示，对应于查询 0* * * 的所有记录，都映射到单元1,2,5,7和 
8* ;而且类似地 ，任何 具有三个 * 的基本的查询恰恰对应到五个 单元； 具有两个 * 的 
基本查询每个对应于三个 单元； 而具有一个 * 的基本查询对应于一个或两个单元， 
平均为 （8 XI + 24 x 2)/32= 1.75, 于是有 

查询中未确定的二进位数要查找的地址个数 

4 8 = 8 4 ’ 4 




(14) 


0 



当然，这是一个小例子，通过硬算更容易处理它。但它导致非显然的应用，因为 
当和 n = 时我们也可以应 用它： 通过把键码分成每个4位的 r 个组，而且 
对每组应用 （13) ，把 4 r 位的记录映射成为 2〜 N 个地址。得到的映射有所希望的 

性 质:在 m 个二进位中对 k 个不加指定的一个查询,将近似地对应到个单元 
(见习题6)。 

1997年， A . E . Brouwer[SJCOMP 28 (1999) , 1970〜1971 ] 通过类似于 （13) 的一 


* 


此处原著有误，原文为 1 ， 2,5,7 和 8, 但地址中并无 8 。 


译者 


# 
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个映射，发现把8个二进位压缩成5个二进位的一个有吸引力的方法。每个8个 
进位的字节恰好属于下列32个类之一。 


0 * 00 0 * 0 * 
1 * 00 0 * 0 * 
0 * 01 0 * 0 * 
1 * 01 0 * 0 * 
0 * 10 * 1 * 0 
1 * 10 * 1 * 0 
0 * 11 * 1 * 0 
1 * 11 * 1*0 


01 * 0**11 
11 * 0**11 
01 * 1**11 
11 * 1**11 
0 * 1 * 0 0 0 * 
1 * 1 * 000 * 
0 * 0 * 11*0 
1 * 0 * 11*0 


0 0 * 11**1 
10 * 11**1 
00 * 0 * 01 * 
10 * 0*0 1 * 
* 01 * 01*1 
* 10 * 10*0 
* 00 * 011 * 
* 11 * 100 * 



在这个设计中的*号是以下列方式安排的，即在每行中恰有3个，而在每列中恰有 
12个。习题18说明如何得到类似的方案。它将把有比如说个二进位的记 
录压缩成有 n =3” 个二进位的地址。在实用中，将使用大小为6的桶，而且我们将 
取 N 〜2%;为了讲述的简单性，在上边的讨论中已经使用 b = l 的情况。 

R 1V est 还提出了用于处理基本查询的另一个简单的技术。假设我们有，比如 
说，每个有30个二进位的 iV 〜 2 1 G 个记录，这里我们希望回答像 （10) 那样任意的30 
个二进位的基本查询。于是可以简单地把这30个二进位分成3个10个二进位的 
字段，并保持3个分开的大小为 M = 2 1 G 的散列表。每个记录分别存储3次，即在对 
应于它在3个字段中的二进位配置的各表列中。在适当条件下，每个表列将包含大 
约一个元素。给定一个带有々个未指定二进位的基本查询，则至少这些字段之一将 
有 L 々/3」 或更少的二进位是未指 定的； 因此我们至多需要考察 2 U /3 」 〜]^ /3() 个表列， 
以找出对于这一查询的所有回答。或者，我们可以在已选择的字段中使用用于处理 
基本查询的任何其它技术。 


广义的检索结构 基于类似于 6.3 节的检索结构这样一个数据结构， Rivest 继 
续提岀另一个方法。我们可以令一个广义的二分检索结构的每个内节点确定它表 
示记录的哪个二进位。例如在表1的数据中，可以让检索结构的根表示香 草精； 于 
是左子检索结构将对应于不含香草精的16个食物品种，而右子检索结构将表示使 
用香草精的15个食物品种。这 16-15 的划分正好把文件分成 两半； 我们以类似的 
方式处理每个子文件。当一个子文件变成适当小时，即以一个终端节点表示它。 

为处理一个基本的查询，我们从检索结构的根开始。当查找其根确定一个属性 
的一个广义检索结构时，若查询有0或1的值，我们就而分别地查找左或右子检索 
结构； 如果该查询在该二进位置有 * ，则两个子检索结构都查找。 

假设属性不是二进制的，但以二进制来表示它们。我们可以通过首先考察属性 
1 的头一个二进位，然后考察属性2的头一个二进位，……，属性 m 的头一个二进 
位，然后属性1的第二个二进位，等等，来构造一个检索结构。通过与 m - d 树的类 
比，这样一个结构叫做 “ m-d 检索结构 （它通过比较而不是通过对位的检查来分支）。 
P . Flajdet 和 C . Puech 已经证明，当属性中有 々/ m 个未被指定时，为了回答在 N 个 
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节点的一个随机 m _ d 检索结构中的一个部分匹配查询的平均时间是 &( N klni )， 

\JACM 33 (1986),371 〜407, § 4 • 1 ] ; W . Schachinger 已经计算 了方差，见只抓也⑺ 
structures and Algorithms ,7 (1995) ，81 〜95。 

对于数字查找树的 m 维变形和 6.3 节的 Patricia 树，可以设计类似的算法。这 
些结构，它们稍微趋向于比 m - d 检索结构更好地平衡，已经由 P . Kirschenhofer 和 
H . Prodinger 作了 分析，见 Random Structures and Algorithms 5( 1994) ， 123 〜 134 0 


#平衡的文件方案对于信息检索的另一个组合方法，是 以平衡的不完备的区 
组设计为基础的，这是进行过相当大量研究的课题。尽管这一课题从数学的观点看 
来是非常有趣的，但不幸的是，与上面描述的其它方法比较，还不能证明它是非常有 
用的。这里将给岀简短的理论介绍，以便指出结果的特色，希望某些读者可以想出 
一个好方法，使这些思想变成为实用的。 

Steiner 三元系 统是把 I ；个对象排列成无次序的三元组，方式是每一对对象恰 
在一个三元组中岀现。例如，当 = 7 时，实际上仅有一个 Steiner 三元系统，即 


三元组 

包括的数对 

ll ,2,4| I 

1,2 ,|1,4 ,|2,4| 

12,3,51 1 

2,3},|2,5|,|3,5| 

13,4,61 

13,4!,|3,6|,|4,6) 

14,5,0} i 

(0,4|,|0,5|,|4,5| 

15,6,11 : 

1,5(,|1,6|,|5,6| 

16,0,2) 

|0,2},|0,6},|2,6) 

10,1,3) 



(16) 


由于有对对象，且每个三元组有三个对，总共必然有 ft ; ( t ；- 1) 个三元 
组； 而且由于每个对象必须同 u - 1个其它的对象配对，每一对象必然恰恰出现于 
+ 个三元组中。这些条件意味着除非 f At ；-1) 和都是整数，否 

则 Steiner 三元系统就不能存在，这等价于说是奇数而且不同于2 mod do 3，即 


v mod 6 = 1 或 3 (17) 

反之，丁 . P . Kirkmari 于1847年证明， Steiner 三元系统对所有使得 （17) 成立的 
存在。他的有趣的构造在习题10中给出。 

Steiner 的三元组系统可用来减少组合的反文件索引的冗余性。例如，再次考虑 
表1家常饼食谱的文件，并把最右边的一列转换成第31个属性，当需要任何特殊成 
分时为1否则为0。假定我们要回答关于属性对偶的所有包含查询，例如，“什么花 
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色既使用椰子又使用葡萄干？”对于这 m =465种可能的查询之每一种，都可以建 

立一个反表。但结果将花费大量的空间，因为（比如说）圣诞小酥饼将在 = 136 

个表中出现，而且具有所有31种属性的一个记录将在每个表中出现！在这种情况 
下一个 Steinei •三元组系统可用来作稍许改进。有一个31个对象的 Steiner 三元组 
系统，且有155_个三元组，而且每个对象对偶恰恰出现于这些三元组之一中。我们 
可以为每个三元组 u，u 配备四个表，在这四个表中，一个是对于有属性 a ， b ，- c 
(即 a 且6但非 c) 的所有记录的，另一个表是对于有属性 a y b , c 的，第三个是对于 
HC， 第四个是对于有所有三个属性的。这就保证任何记录都不会被包括 

在155个以上的反表中，而且每当一个记录有对应于系统的某个三元组的三个属性 
时，它就节省了空间。 

三元组系统是区组设计的特殊情况，其中的区组有三个或更多的对象。例如， 
有一个方法排列31个对象成为六元组，使得每对对象恰恰出现于一个六元组中。 

10,4,16,21,22,241 ， |1，5，17，22，23，25| ，…， |30，3 ， 15，20 ，21 ，23 } (18) 

(这个设计通过 mod 31加法由第一个区组形成。为了验证它有所述的性质，注 
意对于 ,30 个值 （a, _ 七） mod 31是不同的。其中 （ ai ，a 2 , …， a 6 ) = (0,4，16, 

21,22,24) 0 为了求出包含给定对（X，30的六元组，选择 ？ 和 ； 使得％. - ㈦ 三工 

- )(modulo 31) ;现在，如果 k = a Y ) mod 31 ， 则我们有 （a,. + 々 ）mod 31 = 和 

(aj + k ) mod 31 = y) 。 

我们可以利用上述设计存储反表，使得没有任何一个记录出现 31 次以上。对 
^具有 a，6，c，d，q/ 诸属性中两个或两个以上属性的记录的各种可能性，每个六 

元组 ，/1 同57个表相关联， gp(a，6, 乙 

U，6，c，d，e，/) ; 而且对于每个2-属性包含查询的答案是适当的六元组的16个适 
当的表的析取。对于这个设计，圣诞小酥饼将存于31个区组的29个中，因为如果 

我们把列编号成0〜30,则该记录在除了 |19,23,4,9，10，12丨和丨13，17,29,3,4,6| 

两个区组之外的所有区组中，有六个属性中的两个。 

Marshall Hall, Jr 的专著 ComfcinatoWai Theory ( Waltham, Mass, Blaisdell, 1967) 

详细地论述了区组设计以及有关模式的理论。尽管这些组合配置是非常漂亮的，但 

是迄今对于信息检索的主要应用，还只是减少当使用复合的反表时引起的冗 余性; 
而且 David. K. Chow and Control 15( 1969) ， 377 〜 396 ] 已经发现，甚至 

不使用组合设计也可以得到同样的减少效果。 

简史和文献目录 关于辅助键码检索技术的头一篇公开的论文，是由 L.R. 
Johnson 在 CACM 4(1961),218 〜 222上发表的。多重表系统是由 Noah. S. Pry wes, 

H.J. Gray ， W • I . Landauer ， D . Lef kowitz 和 S . Litwin 大约在同 一 时期独立地提出 
的 • ，参 见 IEEE Trans. on Communication and Electronics 82 (1963) ， 488 〜 492 。另一 

篇相当早的并对后来的工作有影响的著作是 D. R. Davis 和 A.D. Lin 的， CACM 8 
(1965)，243 〜 246 。 
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自那以后，关于这一课题的大量文献迅速增长，但大多数都涉及用户接口和程 
序设计语言的考虑，这些不属于本书的范围。除了已经引证的论文外，下列已发表 
的论文是当作者于1972年撰写这 一 节时发现最有用的 ： Jack Minker 和 Jerome 

Sable , Ann . Rev . of Information Science and Technology 2(1967), 123 〜 160, Robert 
E . Bleier Proc . ACM Nat . Conf . 22 (1967 ),41 ~ 49; Jerome A . Feldman 和 Paul D . 
Rovner,CACM 12 (1969), 439 〜 449; Burton H . Bloom , Proc . ACM Nat . Conf . 24 


(1969)，83 〜 95; H . S . Heaps 和 L . H . Thiel , Information Storage and Retrieval 6 

(1970)，137 〜 153; 林耀森和林辉， Proc.ACM Nar . Conf . 26 (1971) ,349 〜356。关于 
人工卡片文件系统的一个很好的综述，见 C . P . Bourne 的 Methods of Information 


Handling (纽 约： Wiley , 1963) ，第 5 章。平衡的文件系统最初是由 C . T . Abraham , S . 
P . Ghosh 以及 D . K . Ray-Chaudhuri 于 1965 年提出的；参见 R . C . Bose 和 Gary . G . 
Koch 的论文， SMM . J . AppLMat / i . 17 (1969) ，1203 〜 1214。 



以上已经讨论了关于多属性数据的大多数经典的算法，它们是众所周知的 
在实践中很重要的算法。但在本书的下一版本中，打算还讨论另外一些课题，这些 
课题包括. • 


• E.M McCreight 介绍了优先查找树 [SJCOMP 14 (1985) ,257〜 276] ，它们被 
专门设计来表示区间的动态变化类的交，并且来处理形如“求满足和^ 


的所有记录”的范围查询。（注意 y 的下限必须是-〜，但： r 在两边都可以是 


有限的。） 

• M . L . Fredman 已经证明了若干基本的下限，它们表明，无论是用什么数据结 

构，在最坏情况下， N 个相互混合的插入、删 除和々 维范围查询的一个系列必须花 

N) 。个 操作。 参见 /ACM 28 ( 1981 ) ,696 - 705 ；SICOMP 10 (1981),1 
~ 10 ;J . Algorithms 1 (1981) ,77 〜 87。 

有关在文本串中模式匹配和近似模式匹配的基本算法将在第 9 章中讨论。 

指岀这样一点是有趣的，即人脑在辅助键码检索方向要比计算机好 得多； 事实 
上，人们发现从只有片断的信息来认记面孔和曲调比较容易，而计算机则几乎全然 
不可能做这件事。因此，将来某一天会发现全新的机器设计方法，它能一劳永逸地 
解决辅助键码检索的问题，因而使本节完全过时，这并不是不可能的。 


习 



► l .[ M 27] 设证明下列构造产生& ] 个 U , 2,…， d 的排列，使得对于 々或? 

>72 -I |1,2,…，刹的每个/元子集至少作为一个排列的前 Z 个元素 出现： 考虑平面中从 （0,0) 
到 U ， r ) 的一条通路，这里 r>n _ 2々，在这条通路中第 f 步是从 （i - 1， 7 ) 到 G ，」• + 1 ) 或者到 （ i ‘， 

; -1);仅当_;>1时才允许后一种可能性，因此这条通路决不会跑到工轴下边。恰有 ) 个这样 
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的通路。对于每条这种类型的通路，利用开始时为空的三个表列构造一个排列如下 ：对于 i = l f 
2,如果这条通路 的第； 步往上去，就把号 f 放到表 B 中； 如果这步往下，就把〗放到表 A 
中，而且把当前表 B 中最大的元素放到表 C 中。得到的排列是表 A , 然后表 B , 然后表 C 的最后 
内容，每个表处于递增的次序。 

例如，当 n =4 和々=2时，由这个过程确定的六条通路和排列为 


|1 2 3 4| 2|3 4|1 2 4||l 3 3|1 4|2 3 4||1 2 4|l 2|3 

(垂直线示出表 A 、 B 和 C 之间的分界线。这六个排列对应于 （8) 中的复合属性）。 

提示： 通过从 (0,0) 到 （ n ,72-20 的一条通路表示每 i 个元素的子集 S ， 如果它的第 i 
个步骤从进行到 （ f,j + l )， 如果 fGS ， 则进行到把每条这样的通路转换成有 
上述特殊形式的一条适当通路。 

2. [ M 25]( Sakti . P . Ghosh ) 试求用于访问记录的一个表… q 的最小长度/，使得对三个 

二进值的辅助键码进行的任意包含査询 * * 1, * 1 - X - ,1 * * , * 11,1 *1,11 ^ ,111的所有回答的 
集合，都将出现于连续的单元 rv-G 中。 

3. [19] 在表2中，什么包含査询将引起 （ a ) 旧式家常糖饼， （ b ) 燕麦枣椰条饼在假情报中出 
现？ 

4. [ M 30] 假设每个记录有 r 个不同的属性，它们是从《位字段的 J 个々 位二进位代码中 

随机选择的，且査询包括 g 个不同的但除此以外是随机的属性，试求 （11) 中概率的精确公式（如 
果这些公式没有简化，也不要吃惊）。 

5. [40] 当对子串的査找使用 Harrison 技术时，实验各种方法来避免正文的冗余性。 

► 6.[ M 20] 指明 r 个二进位的 m 位基本査询的总数是)2、如果像在 （13) 中那样的一 
个组合散列函.数把这些査询分别地转化成为/ 1? / 2 ,个位置，则 L (0 = (G + G + …+ l s )ls 

是每个査询的平均位置数。[例如，在 （13) 中我们有 L (3) = 1.75 0 ] 

现在考虑对一个 （ m t + m 2 ) 个二进位字段的合成散列函数，它是由用一个散列函数映射前 

位，用另一个散列函数映射剩下的位形成的，其中 I ^ U ) 和 L 2 U ) 是每个査询对应的平均 
位置数。试借助于 M 和 L 2 ，求表达的合成函数 L (0 的一个公式。 

7. [ M 24]( R . L . Rivest ) 如同上题中定义的那样，对于下列组合的散列函数，求函数 L ( t ), 

( a ) m = 3, n = 2 ( b ) m = 4, n = 2 

00 * — 0 0 0 * * ^ 0 

1*0 1 *1*0 1 

*11 ~^ 2 *111—^2 

10 1 — 3 101 * — 2 

010—3 "01—3 

100 * — 3 

8. [ M 32]( R . L . Rivest ) 考虑类似于 （10) 中的所有 2^ 个基本的 m 个二进位査询的集合 

0,^，其中恰有〖个指定的二进位。给定 m 个二进位的记录的一个集合 S , 令 y;(s) 表示在 Q t ， m 
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中査询的个数，它们的回答包含 S 的一个 成员； 令是对于0< 5 <2"',对于所有有 S 个元 
素的所有这样的集合 S 的极小值 /,( S )。 约定/,(0,0) = 0和/,(1，0) = 4.0。 

a ) 证明，对于所有 以及对于 0< s <2'/ f ( s , m ) = / f (「 s /2 l，m _ I ) + f t -,([ s |2 ^ i 

m - 1) + f t - 1 ( L5 / 2J , m - 1) 

b ) 考虑从 2 ; " 个可能的记录到 2" 个表列的任何组合散列函数 / i , 且每个表列对应于 2 ; " i 个 
记录。如果仏,,„中的每个査询都是同等可能的，则对于每个査询需要考察的表列的平均数是 

"2:(7 ) 乘以 

S (对于 Q 考察的表列）二 H (同 S 有关的 Qu , 的查询） >2 V ,(2" n ， m ) 

Q ^ Q f *列5 

证明，个表列是一个“子立方体”时，在这个下限可达到的意义下，/!是最 优的； 换句话说, 
当每个表列对应于满足带有恰好77个指定的二进位的某个基本査询的一个记录的情况下，等式 
成立。 

9.[ M 20] 证明当 = 时，所有形如 

|( ar .. q _ 1 06 1 ".6,,_々） 3 ，（ a 1 “- anlc 1 -" c ,,_ A ) 3 ，（ u 1 ..- a A _ 1 2 d 1 -" d "_ A ) 3 |，K k ( n 

的三元组的集合形成一个 Steiner ■三元组系统，其中诸^诸6,诸 c 和诸^取遍 0，1 和2的所有使 
得 bj + Cj + ^0 (modulo 3) 的组合，其中 ” _ k 。 

10 . [ M 32 ] ( Thomas . P . Kirkman , Cambridge and Dublin Math . Journal 2(1847),191 — 204) 我 
们说阶为 r 的一 个 Kirkman 三元组系 统是把 r + 1个对象，…，: cj 变成为三元组的一个安 


排，使得对于；关_7,每个对偶恰出现于一个三元组中，但是对于 0< i < wz ; 个对偶 U ;, 
AanmodJ 决不出现于同一个三元组中。例如 



OC J y SC ^ f OC ^ 



是阶为4的一个 Kirkman 三元组系统。 


a ) 证明仅当 T ； mod 6 = 0或4时 一 个 Kirkman 三元组系统才能存在。 


b ) 给定 u 个对象，…，上的一个 Steiner 三元组系统 S ， 证明下列构造产生 2 z ; + l 个对 


象上的另 一 个 Steiner 系统义以及阶为 2z;- 2 的一个 Kirkman 三兀组系统:义的三兀组是 S 
的三元组加上 

i) I oc- t ,yj y y k I ，其中 j + k^i( modulo v) 及 j < k 、 j ， k^v •， 

ii) I x , ,^ z 1 ，其中 2 j = i ( modulo ) ， 1 <^ i 。 

iT 的三元组是 S ' 的那些三元组减去含 & 和/ 或％ 的那些三元组。 


c ) 给定丨 j ： o ，上 1 ，…， A 1上的一个 Kirkman 三兀组系统，其中 v = 2 u ，证明下列构造产生 2 v + 1 


个对象的一个 Steiner 三元组系统$，以及阶为 - 2的一个 Kkkman 三元组系统 K ' S 7 的三元 
组是 K 的三元组加上 


i) U, ，工(,■十 U mod t> ， 3>. + 1 t ,0<Z < Z ；； 

ii) I x x ^yj % yk \ y j + k =2i + 1(modulo z ； - 1) ， 〈々 -1 ^^； - 2 ,1 ^7^t ； - 2; 

iii) I Xi ,yj f y v I y 2j=2i + 1 (modulo i; - 1) ， l^j^v - 1 ， 1 ^i^z ； - 2; 

iv) i ^ 2 ; ^ 2 j + 1 I ， I 工 u]- 1 ， 3% 1 A^ v yyj ,y v -j \ 于 < w ; 

v ) I a ，％，％!。 


IT 的三元组是 S 7 的三元组减去包含: yi 和/或: VumW 那些三元组。 

d ) 利用上面的结果证明阶为 z ; 的 Kirkman 三元组系统对于形如6 々或 6纟+ 4的所有 v >0 存 
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在，且个对象的 Steiner 三元组系统对于形如6々+ 1或6々+ 3的所有 v > l 存在。 

U . LM 25] 正文描述了同包含査询相联系时 Steiner 三元组系统的用法。为了把这推广到所 
有基本的査询中去，定义下列概念是自然的 ：阶为 r ; 的一个 互补三元组系 统是把个对象 Ui , 

…，，…，王 J 编成下面这样一些三元组的一个安排，即每对对象恰在一个三元组中一起出 

现，但互补的对■，元 i 决不一起出现。例如 



X\ j 工 2 ，工 3 


，1工1，工2 9^3 



， j^：! 9 X 2 f^3 


是阶为3的一个互补三元组系统。 

证明对于所有不是形如 3 A +2 的都存在阶为 r 的互补三元组系统。 

12. [ M 23] 继续习题11,构造阶为7的一个互补 四元组 系统。 

13. [ M 25] 构造类似于习题9的三充组系统的具有 v ^4 n 个元素的四元组系统。 

14 . [28 ] 试讨论从四叉树、 々- d 树以及类似于图45的邮局树删去节点的问题。 

15. [ HM 30] P . Elias 给定 m 个二进位记录的一个很大集合，假设我们要来找一个记录，在大 
多数二进位一致的意义下，它最接近于一个给定的査找变元。假定给定了 2〃 个元素的一个 m 个 
二进位的^误差校正码，而且每个记录已经被“散列到”对应于最接近的码字的2” 个表之一，试设 
计用于有效地解决这个问题的一个算法。 

► 16. [25] ( W . H . Kautz 和 R . C . Singleton ) 证明阶为^的一个 Steiner ■三元组系统可用以构造 

每个有 r 个二进位的 1)/6 个代码字，使得任一代码字不被包含在其它两个代码字的叠加 
码中。 


► 17. [ M 30] 试考虑下列把 (2 n + l ) 个二进位的键码 


^0 




1) 个二进 


位的桶地址 b Q ， …， b n 的方法 


心 o — a 0 ; 

如果 i = 0则心 ― a _• A 否则心 — ，对于 \< k<n 0 

a ) 试描述出现在桶 b 0 … b „ 中的诸 键码； 

b ) 在有指定的/个二进位的一个基本査询中，需要考察的桶的最大个数是多少？ 

► 18.[ M 35] (相关区组设计） 一 个类似 （13) 的 m 元组的集合，且在2” 个行的每行中恰有 
w - n 个* ，如果每个列包含相同个数的 * ，而且如果在每对的行中都有在某列中的一个“不匹配” 
(0 对1)，则称这个集合为 ABD ( m ， n )。 于是每个 m 个二进位的数都将恰好匹配一行。例如， 
(13) 是一个 ABD (4,3)。 

a ) 试证明，除非 m 是2” —、的一个因子而且 n 2 >2 m ( l - 2_”），否则， ABD ( m , n ) 是不可能 
的。 

b ) 如果 ABD 的一个行包含有奇数个1，则说它是奇校验的。试证明，对于一个 ABD ( m ， n ) 中 
的 m - n 个列的每一个选择，在这些列中具有*的奇校验的行的个数等于偶校验的行的 
个数，特别是，星号的每种模式必然在偶数个行中出现。 

c ) 通过排列和/或对列取补，求出由 （13) 不能得到的一个 ABD (4, 3)。 

d ) 构造一个 ABD (16,9)。 

e ) 构造一个 ABD (16，10)， 由部分 d ) 的 ABD (16,9) 开始，而不是由 （15) 的 ABD (8,5) 开始。 

19 . [ M 22 ] 如同在 （14) 中已经分析了 （13) 那样，试分析 （15) 的 ABD (8,5); 对于有々个二进位 
未指定的一个普通的査找来说，必须査找32个位置中的多少个位置？在最坏情况下，必须査找多 
少个位置？ 

20. [ M 47] 当《 二5或 n =6 时，求所有 ABD ( m ， rz )。 
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6.5 利用辅助键码的查找 


本书的下一版本的新的 6.6 节打箅专门讨论“持久的数据结构”。持久的数据结构能够以这 
样一种方式来表示变动的信息，即过去的历史可以有效地重新构造岀来。换句话说，我们可以做 
许多的插人和删除，但我们仍旧能进行查找，就好像在一个给定的时间之后未曾做过修改似的。 

对于这一课题有关的参考文献包括下列的一些论文： 

• J . K . Mullin , Comp ./. 24 (1981) ，367〜373; 

• M . H . Overmars , Lecture Notes in Comp. Sci , 156 (1983) ，第 9 章； 

• E . W . Myers ^ACM Symp. Principles of Prog. Lang. ,11 (1984) ， 66 〜 75 ; 

• B. Chazelle ,7 n form a do /} and Control ,63 (1985)，77 〜 99 ; 

• D . Dobkin 和 J . L Munro J . Aig * or / t / ims ， 6 (1985) ， 455 〜 465; 

• R . Cole J . Algori thms , 7 (1986) ,202 — 220 ; 

• D. Field y Information Processing Letters , 24 (1987) ,95 〜 96; 

• C . W . Fraser 和 E. W . Myers yACM Trans. Prog. Lang, and Systems 9 (1987) ， 277 〜 295; 

• J. R . Driscoll , N - Sarnak , D . D . Sleator 和 E . Tarjan , J . Comp. Syst. Sci ‘， 38 ( 1989) ， 86 〜 


124; 

• R . B . Dannenberg,Software Practice & Experience ,20 (1990) ， 109 〜 132; 

• J . R . Driscoll ， D . D . K . Sleator 和 R . E . Tarjan JACM 41 (1994) ,943 〜959。 

Instruction tables [ programs ] will have to be made up 

by mathematicians with computing experience 
and perhaps a certain puzzle solving ability . 

There will probably be a 

for every known process has got to be 
translated into instruction table form at some stage . ... 


great deal of work of this kind to he done f 


This process of constructing instruction tables should be very fascinating . 

There need be no real danger of it ever becoming a drudge , 

for any processes that are quite mechanical 
may he turned over to the machine itself . 

指令表[程序]将要由具有计算经验以及或许还有某种解决智力游戏问题 

的能力的数学家来编制。 

大概将有大量的这一类型的工作需要完成，因为在每个阶段，每个已知的 

过程都需要被翻译成指令表的形式。 

构造指令表的这一过程将非常迷人。它不含有变成单调乏味的实际危险， 

因为任何那些十分机械化的过程都可以交给机器本身来完成。 

- ALAN M . TURING (1945) 
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习题答案 


“J have answered three questions f and that is enough " 

Said his father, “don’t give yourself airs! 
Do you think 1 can listen all day to such stuff? 

Be off f or I'll kick you down stairs! ’， 

“ 我已经回答了三个问题，而这就够了，”他的父亲说，“不要装腔作势! 

你是不是以为我能整天地听这样的废话?滚开， 

否则我将一脚把你踢下楼去！” 

- LEWIS CARROLL ,^ Hce f s Adventures Under Ground (1864) 

关于习题的说明 

1. 对于一个有数学修养的读者来说是一个普通的问题。 

3 . 见 W. J‘ LeVeque, Topics in Number Theory 2(Reading, Mass. : Addison-Wesley, 
1956) ， 第 3 章。 P. Ribenboim, 13 Lectures on Fermat' s Last Theorem (New York ： 
Springer-Verlag, 1979), A. Wiles ^Annals of Mathematics 141(1995) ， 443 〜 551 。 

第 5 章 

1 . 设 f ( l )， …， MiV ) 和 g ( l )， …， g ( iV ) 是满足这些条件的不同的排列，且设 f 

是使 的极小值。则对某个 j > i 有 = 和对于某个，有 

<?(0 = 夕（々）。由于 K p ( l ) ^ K p(k) = K q ( i ) <： K q(j) - ⑺， 我们有 K p(l) = ;因 

此由稳定性 p ( i ) < p ( k ) = q ( i )< q ( j ) = p ( i ) ，矛盾。 

2. 是的，如果排序操作都是稳定的话。（如果它们不稳定，则我们不能这么 
说。） AHce 和 Chns 肯定有相同的 结果； 而且 BU 1 也是，因为稳定性表明，在他的结果 
中当主键码相等时，次键码是按非减次序排列的。 

形式上，假定 Bill 对次键码进行排序之后，得到结果 R ._ … R p ⑼二 R ^. R ' n ， 

然后在对主键码进行排序之后得到 R 、⑴… R 、 (n 、= ⑴）…〜⑽)）；我们要证 

明：对于 1^ z < N , ( K p ( q (；)' ) , k P ( q ( t ))) ^ ( K p ( q (i ”)） ， 是 〆 g (i + ⑴ ） 。如果 K P ( q ( i )) 7^ 

K p ( q( l + i )) ，则我们有 K P ( q(l) )< K p(q(i + l)) ; 又如果 K p ( q ( l ))= 心〜( / + 1 ))，则 Kqd )= 

K ^ + 1 ) ，因此 <7( i )< g(i + l )， 因此 <(,)<<(,. + i ) ，即 k p ( q ( i )) ^ k p(q({ ^ [))o 

3. 我们总能把具有相等键码的记录送到一起，并保持它们的相对次序，在进一 
步的操作中把这些记录组当作一个单位来 处理； 因此，我们可以假定，所有的键码都 

• 544 - 



第 5 章 


是不同的。设 a <6< c < a ; 则我们可以把这些记录安排成头三个键为 abc ， bca ， 或 
cabo 现在如果 N -1 个不同的键码可以以三种方法加以排序，则 N 个 也能； 因为 
如果… 〈 Kn - PKjv ， 则对于 某个； 总有或者 K N < K lo 

4. 首先比较没有大小写区别的字，然后使用大小写来打破僵局。更确切地说，以 
对偶（ 〆 ，《 ) 来代替每个字 a, 其中 〆 是由 a 通过映射 A—a ， … ， Z—z 得 到的; 然后按字 
典次序对这些对偶进行排序。例如，这个过程给出 tex<Tex<TeX<TEX<text 。 

字典也必须处理加重音的字母，前缀，后缀以及 略写； 例如 

a < A < A < a -< a. <- a < A -< A. < aa < a. a. 

< aa < aa < AA < A. A. < AAA < ■•- < zz < Zz < ZZ < zzz < ZZZ 

在这个更一般的情况下，我们通过映射 a ， 人 —a 等，以及去掉破折号及句点 
等得到 〆 。 

5. 设^(0) = 0和 p (( la ) 2 )^ lp ( I a I ) a ; 这里 （la ) 2 是一个正整数的通常的二 

进表示，而 M 是串 a 的长度。我们有 ^(1) = 10^(2) = 1100^(3) = 1101^(4) = 
1110000,…，〆 1009) = 111101001111110001 ， … ,^(65536) = 1 5 0 24 ， …,^(2 65536 )= 

炉妒 556 。，等。^幻的长度是 

72 ) | = A ( 72 ) + A ( A ( n )) + A ( A ( A ( n ))) + …十 lg*?2 + 1 

其中 A(0) = 0, 对于 n^lyX(n) = Llg” 」。而且 lg* w 是使得 A [ w ] ( n ) = 0 的最小整 

数 m^Oo [这个构造是由 V. I. Levenshtein,ProWemy Kibernetiki ， 20( 1968) ， 173 〜 
179 给出的。也请参见由 D. A. Klarner 主编 TTie Mathematical Gardner (加州 Bel¬ 
mont : W ads worth International ,1981) 310 〜 325 ， D. E‘Knuth 的论文 。 ] 

6. 溢岀是可能的，而且它能导致一个假的相等指示。他应该编写 ， LDA A ; CMPA 
B 并检查比较指示器（不可能通过减法来做全字长的比较，这实质上是许多计算机 
上的一个问题；这是在 MIX 的指令系统中包括 CMPA ， …， CMPX 的主要原因）。 


COMPARE STJ 9F 

1H LDX A,1 

CMPX B r l 

JNE 9F 

DEC1 1 
J1P IB 

9H JMP * I 


. 解法 1 ，以恒等式 mmU,6) = 

=+ b - 

a — b 

SOLI LDA 

A 

STA 

A1 

SRAX 

5 

STX 

A2 

DIV 

= 2 = 

LDA 

B 


) 为 基础 : 


a 


2a 



^2 


a 2 


<1 
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SRAX 

DIV 

STA 

STX 

LDA 

SUB 

STA 

LDA 

SUB 

STA 

SRAX 

ADD 

ENTX 


5 


2 


B 1 

B 2 

A 1 

B 1 

AB 1 

A 2 

B 2 

AB 2 


b 




2 b x 





<1 


不可能溢出 

a 、 一 b' 


a 2 ~ b 


AB 1 


SLAX 

5 

MUL 

AB 2 

STX 

AB 3 


LDA 

ADD 

B 2 

SUB 

AB 3 

SRAX 

5 

DIV 

= 2 = 

ADD 

A 1 

ADD 

B 1 

SUB 

AB 1(1：5) 

STA 

C 


a 2 一 b 2 ) sign(a b ) 


A 2 


不可能溢出 


解法2,以变址能以一种巧妙的方式引起交换这一事实为 基础: 


S 0 L 2 


LDA 

STA 

STA 

LDA 

STA 


A 

C 

TA 

B 

TB 


现在重复下列代码 A 次，这里2^>10 10 


i 

■ 


LDA 

TA 

LDA 

TB 

工 NCI 

0,2 

SRAX 

5 

SRAX 

5 

工 NCI 

0,2 

DIV 

= 2 = 

DIV 

= 2 = 

工 NCI 

0,2 

STX 

TEMP 

STX 

TEMP 

LD 3 

TMIN , 

LD 1 

TEMP 

LD 2 

TEMP 

LDA 

0,3 

STA 

TA 

STA 

TB 

STA 

C 


(这从右到左地扫描 a 和 6 的二进表示，并保持它们的符号。）最后，程序以下列一个 

表结束 


HLT 

CON C 
CON B 
CON B 
CON A 
TMIN CON C 

CON B 
CON A 
CON A 
CON C 


一 1 
0 


一 1 

一 1 



-1 
0 


0 

0 

0 


一 1 
0 


« 
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9. 由容斥原理 *( 习题 1.3.3-26) 得到 2 ; ( r _ 1( 一 这是 

一个卢分布，也可写成为 r( N )[\ r -m - 

V r /Jo 

10. 将磁带的内容进行排序，然后进行计数（当排序进行时，某些排序方法可用 

来方便地筛除其键码出现一次以上的记录）。 

11. 给每一个人指定一个标识号，这个号必须在所有涉及他的表格中出现。以 

这个标识号为键码，分别对信息表格和赋税的表格排序。以只1，…，尺 N 表示排好序 

的赋税表格，其键码为 1^<一<1^ 0 (对于相等的键码不应该有两张赋税表格。） 

增加一个新的其键码为 00 的记录，这是第 （ N + 1) 个记录并且置 i — lo 然后对于信 
息文件中的每个记录，校验它是否已经报告如下：设 K 表示正在处理的信息表上的 

键码。 

a ) 如果增加1，并且重复这个步骤。 

b ) 如 K < K t 或者如果尺=&而且信息不反映到赋税表格尺上，则标出一个 

错误。尝试来做这全部工作而不浪费纳税人的钱。 

12. 一个方法是附加键码到条目上，而且利用字典编辑顺序来排序， 

然后删去键码。（当能够给出重新编序的一个简单公式时 ，一 个类似的思想可以用 

来得到对于信息的想要的任何重新排序。） 

在这个问题所考虑的特殊情况下，“平衡的两路合并排序”方法以这样一种简单 
的方式来处理键码，即不必明显地在磁带上写出任何键码来。给定一个” X n 矩 
阵，我们可以这样做:首先在磁带1上放置奇数编号的行，在磁带2上放置偶数编号 

的行，等等，得 到： 

磁带 a [ n a 3 l a ^2 mm, ^3n a 5i a 52''' a 5n'^ 

磁带 2: a 21 a 22 … a 2 rl a 41 a 4 2." a 4 rj a 61 awa 67I ... 

然后反绕这些磁带，而且同步地处理它们，以得到 

磁带 3 ： a n a2ia 1 2a22 ,,m a ln a 2n a 5l a 6l a 5 2a 6 2 t -a 5n a 6n -' 

磁带4: a 31 a 41 a 32 a 42 -Ha 3 „a 4 „a 71 a 81 a 72 a 82 ."a 7 „a 8 „." 

反绕这些磁带，并且同步地处理它们，以得到 

磁带 1 : <221 ^31^41^2… a 4 n a 9 ，l … 

磁带 2： a 51 a 61 a 11 a 8 l a 52 ' t ' a S 2' t , asn ^\3 i i ^' 

等等，直到 「lgd + 1遍扫描之后得到所希望的转置。 

13. 一个方法是附加随机的不同的键码值，按这些键码进行排序，然后拋弃这 
些键码。（参考习题12;在 3.4.2 小节中讨论了为得到一个随机的样品的一个类似 
方法。）另外一项技术需要差不多同样多的工作量但显然不太强求随机数生成程序 


容斥原理又译为包括和排除原理。 


译注 
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习题答案 


的精确度，它附加一个在范围 0<&< N - i 内的随机整数到氏上，然后利用习题 
5.1.1-5 的技术重新安排。 

14. 通过一个字符转换表，你能设计一个按字典顺序的比较程序，它模拟在其 
它机器上所用的次序。或者，你可以建立人工的键码，它不同于实际的字符但是给 
出所希望的次序。后一种方法有这样一个优点：它仅仅需要做一次。但是它花费较 
多的空间而且要求对整个键码的转换。前一种方法通常可以仅仅通过转换键码字 
的一个或两个字母，就确定了比较的结果；在排序的后边诸阶段，这个比较将仅仅在 
几乎相等的键码之间进行。因此在前一种方法中，在转换字母之前校验字母的相等 

性也许是有优点的。 

15. 对于这个问题，仅需扫视这个文件一次并保持50个左右个别的计数。但 
如用“城市”来代替“州”，而且如果城市的总数十分大，则对于城市的名称进行排序 

将是一'个好的想法。 

16. 像在习题15中一样它依赖于问题的大小。如果高速的存储器能放得下交 
叉引用的全部记录，则最好的方法大概是使用一个符号表算法（第六章），而且每个 
标识符与一个引用表的表头相联系。对于更大的问题，建立一个记录文件，为放置 
到索引中去的每个交叉引用条目都设置一个记录，并且对此文件进行排序。 

17. 每张卡片上设一个“阴形键码”，若以通常简单的方式按字典顺序对键码进 
行排序，就能定义所要的次序。这个键码应由图书馆职员提供，而且当它首次进入 
这个系统时就附加到卡片数据上，但对于通常用户来说它是看不见的。则一个可能 
的键码使用以下的双字母代码把字彼此分开： 

U 0 键码的结束 

ul 交叉引用的结束 

U 2 姓的结束 

u 3 多个姓的连字号 

u 4 作者名的结束 
u 5 地名的结束 
u 6 标题的结束 

u 7 书的题目的结束 

8 词之间的空格 

对于给定的例子，我们将得出如下结果(仅仅给出头25个字 符）： 


ACCADEMIA u 8NAZIONALE ^ 8DEI 
ACHTZEHNHUNDERT ZWOLF ^ 8EIN 
BIBLIOTHEQUE ^ 8D ^ 8HISTOIRE 
BIBUOTHEQUE u 8DES u 8CURIOS 
BROWN u 2J u 8CROSBY u 4 u 0 
BROWN 2JOHN uj 4 ^ 0 


BROWN u 2JOHN u 4MATHEMATICIA 
BROWN u 2JOHN u 40F u 8BOSTON u 0 

BROWN L-i 2JOHN u 41715 u 0 
BROWN u 2JOHN u 41715 u 6 u 0 
BROWN u 2JOHN 41761 u 0 
BROWN u 2JOHN u 41810 u 0 
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LABOUR l_i 1 l_i 0 

MACCALLS uj 8COOKBOOK u 7 u 0 
MACCAETHY u 2JOHN u 41927 」 0 

MACHINE u 8INDEPENDENT u 8C0M 
MACMAHON ^ 2PERCY u 8ALEXANDE 
MISTRESS u 8D ALLOW AY u 7 u 0 
MISTRESS u 80F ^ 8MISTRESSES ^ 

ROYAL l-i 8SOCIETY u 80F u 8LONDO 
SAINT u 8PETERSBURGER ^ 8ZEIT 
SAINT ^ 8SAENS ^ 2CAMILLE ^ 418 
SAINTE u 8MARIE ^ 2GASTON ^ 8P ^ 
SEMINUMERICAL ^ 8ALGORITHMS 
UNCLE u 8TOMS u 8CABIN u 7 u 0 
UNITED l_i 8STATES u 8BUREAU u 80 
VANDERMONDE u 2 ALEXANDER ^ 8T 
VANVALKENBURG u 2MAC u 8ELWYN 
VONNEUMANN u 2JOHN u 41903 u 0 
WHOLE u 8AJRT u 80F u 8LEGERDEMA 
WHOS ^ 8AFRAID ^ 80F ^ 8VIRGINI 
WIJNGAARDEN ^ 2ADRIAAN u 8VAN 

这个辅助的键码应该接有卡片数据，以便正确地区别具有相同辅助键码（例如 Sir 
John = John ) 的不相等卡片。注意“ Saint - Saens ^ 是一个连接的名字而不是一个复合 
名。 al - Khuwarizml 的岀生年份应当以比如说带一个前导0的 i_i 40779给出。（这 

个方案在9999年之前都将有效，而在该年之后世界将面临巨大的软件危机。） 

对于这个例子的仔细研究揭示如何处理在人机交互中需要的其它非寻常类型 
的次序。 

18 • 例如，对于 u^v^zv , 我们可以造包含 ( w 6 + V 6 + vu^) mod m 和 

(/-/-/) mod m 的值的两个文件，这里 m 是计算机的字长。对文件进行排序 
并且把重复的挑出来，然后对重复者施以进一步的检验。（某些对小素数求模的同 
余式也町用来对 w ，1 ，3 N z 设置进 一 步的限制。） 

19. 一般地说，有如下方法找出满足々+ = c 的所有数对丨^,5丨，这里 c 是 

给定的••对文件进行排序，使得。置 z —— N ， 然后重复下列操 
作直到 j^i : 

如果 A + A = c ,则输出丨％， X )丨，置 i^i + 1 , j - 1 ; 
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BROWN u 3WILLIAMS 2REGINALD 
BROWN u 8AMERICA ^7^0 
BROWN l-i 8AND ^ 8DALLISONS u 8NE 
BROW NJ OHN u 2ALAN u 4 u 0 
DEN lu 2VLADIMIR ^ 8EDUAKDOVIC 
DEN u 7 u 0 

DEN u 8LIEBEN u 8LANGEN u 8TAG u, 
DIX u 2MORGAN u 41827 u 0 
DIX ^ 8HUIT l-i 8CENT ^ 8DOUZE l_i 80 
DIX ^ 8NEUVIEME u, 8SIECLE u 8FR 
EIGHTEEN u 8FORTY u 8SEVEN u 81 
EIGHTEEN u 8TWELVE ^ 80VERTUR 
I u 8AM u 8A u 8MATHEMATICIAN u 7 
I u 8B u 8M ^ 8JOURNAL u 80F l_i 8RES 

I I__I 8HA I__I 8EHAX) i_j 7 i__i 0 

IA u 8A u 8LOVE u 8STORY u 7 u 0 
INTERNATIONAL u 8BUSINESS u 8 
KHUWARIZMI ^ 2MUHAMMAD ^ 8IBN 
LABOR u 7A u 8MAGAZINE u 8FOR u 8 
LABOR u 8RESEARCH u 8ASSOCIAT 


题答案 


如果 Xi + A < c ， 则置 i — i + 1; 
如果 A + % > c ，则置 j^~j _ 1。 


最后，如果 7_ 


i 而且 2: r ; 


，则输出! 




O 


这个过程就像习题 18 的方法那样 


我们实质上造两个有序文件，一个包含:^， 


工 AT 


，另一个包含 C ~ X N y 


ft 暴蠡 




A ，而 


且校验重复。但第二个文件在这种情况下不需要明显地形成。当 C 为奇数时，另一 


个方法是对一个诸如（ X 奇=>1，工 偶 

当给定 i 和两个排好序的文件: 



) 的键码进行排序。 


ft 暴 ■ 


< 





_參 


时，一个类似的算法可 


用来求 maxi a 






丨； 或者比如说，来求 mini 




yj 




yj 


>t\ 


o 


20. 某些方案是 ：（ a ) 对于满足 l < f < j <1000 的 499 500 个对偶 z ， j 的每一 


个，置 
打印 ( 



㊉ 



3^2 


A (y 


yi 


A 






o 


这里 ㊉ 表示“异或”， A 表示“按位与 


o 


1); 然后，当且仅当 y 
( b ) 由每个原来的字 



:0时， 
,形成 


31个项，其中包括^本身及在一个位置上不同于^的另外30个字，这样得到一个 

共有31 000个项的文件。对这个文件进行排序，而且考察重复性。 （ c ) 对于 

i ) 它们的头10个二进位一致的所有 字对； 

ii ) 它们中间10个二进位(但不是头10个二进位）中一致的所有 字对； 

iii ) 它们后10个二进位(但既不是头10个二进位也不是中间10个二进位）一致 
的所有字对。 

作类似于 U ) 的测试。这包含三个数据排序，并且每次使用一个确定的10个二进位 
的键码。如果原来的字是随机分布的，则在三种情况的每一种中预期的对偶数目至 
多是 499500/2 1 G , 它小于500 o 

21. 首先准备好包含所有五个字母的英文单词的一个文件。（别忘了把诸如- 


ED 、- ER 、- ERS 、- S 的后缀附加到较短的字上。）现在取每个五字母单词 



，并把它的字 


母排为递增次序，得到有序的五个字母的序列， 


0 


最后把所有对偶 U ' a ) 进行排 


序，来把所有变异单词弄到 


起。 


Kim . D . Gibson 于1967年所作的实验表明，普遍知道的五个字母变异字的第二 

个最长的集合为 LEAST , SLATE , STALE , STEAL , TAELS , TALES , TEALS 。但如果他能够使 

用更大的辞典，那就能通过加上下列各词而使这个集合真正成'为 第一： ALETS (钢肩 

甲） ， ASTEL (—个裂片）， ATLES (意愿） ，: LAETS (介于奴隶和自由民之间的人们 ）, LASET 
(白鼬）， LATES (尼罗河吻鲈）， LEATS (水沟）， SALET (中世纪的头盔）， SETAL (与刚毛有 
关的）， SLEAT (刺激、激励）， STELA (石柱）以及 TESLA (特斯拉，磁通量密度单位）。连 
同对于“ settle ” （安置）和“ teasel ” （川续断属植物）的旧的拼写 SATEL 、 TASEL 和 TASLE , 

我们得到22个互相可以转换的字，其中没有一个需要以大写字母来拼写。而且再 
凭一点勇气，我们还可以加上老的英文字 toesl ， 德文的 atles ， 以及 de Stad 夫人！当 

我们参考完备的词典时，也能把集合1 LAPSE , LEAPS , PALES , PEALS , PLEAS , SALEP , 
SPEALl 扩充到至少含 14 个字。[参见 H . E . Dudeney ，由 Martin Gardner 主编， 300 
Best Word Puzzles (纽约： Chas . Scribner ’ s Sons , 1968) ，智力游戏 190 和 194; Ross 
Eckler , Making the Alphabet Dance (纽约: St . Martin’s Griffin , 1997), 图 46 c ]。 
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三个 或以上 五个字 母的英文变异字的开初的和末尾的集合是 Ulbas 、 balas 、 

BASAL I 以及1 STRUT 、 STURT 、 TRUST I ，如果不允许包括适当的名字的话。然而，如果去 
掉该限制，则适当的名字导致一个较早的集合 i ALBAN , BALAN 、 BANAL , LABAN , NABAL 、 

NABLAi 0 在普通英语中较长的变异字的最令人惊异的也许是数学的集合 ULERTING 

(警戒）、 ALTERING (修改）、 INTEGER (整数）、 RELATING (关联）、 TRIANGLE (三角形）丨。 

更快地进行的方法是计算 + 十…+ h(a 5 ))mod m ， 其中 

以，…，是 a 中个别字母的数值代码，且 U ( l ), &(2)，…）是26个随机地选择的 

常数； 这里 m 比如说是 2 L 21 gN 」 ，如果有 N 个单词。对文件 （/ U )， a ) 用算法 5.2.5 R 
的两次扫描进行排序将把这些异体字放到一起;然后当 / U )=/( 幻时，我们必须确 
保对于，有一个正确的变异字。 /( a ) 的值可以比 〆 更快地计算，而且对于文 

件中大多数的字 a 这个方法避免对，的确定。 

注意： 当我们要把有相等的多字键码（心，…，〜）的记录的所有集合弄到一起 

时，可以使用一个类似的技术。假设，除了把有相同键码的记录弄在一起外，我们并 
不关心文件的次序；有时，对一个字的键码（〜/ _1 + _2 +…+〜 ，）mod m 进 

行排序列，其中工是任意固定的值，而不是对原来多字的键码进行排序，还要更快 

些 0 

22. 求图形的同构不变量（即，在同构的有向图上取相等值的函数）并对这些不 
变量进行排序，来把“明显地不同构”的图形彼此分开。同构不变量的例子是 ： U ) 以 
(^,~)表示顶点％，这里 A 是它的输入次数，卜是它的输出 次数； 然后把对偶（化， 

M 排为字典编辑顺序。得到的文件是同构不变量。 （ b ) 用 （〜， 表示从％ 
到％的一条弧，并且把这四元组排成字典编辑顺序。 （ c ) 把有向图分开成为连通分 

量(参考算法 2.3.3 E )， 确定每个分量的不变量，并且以某种方式把这些分量按它们 

的不变量的次序来排序。也见习题21中的讨论。 

在按它们的不变量对有向图进行排序之后 ，一 般仍然有必要进行第二次测试看 
是否具有相等不变量的有向图确是同构的。这些不变量对于这些测试也是有帮助 
的。在自由树的情况下，有可能找出“特征的”或“规范的”不变量，它们完全地表征 

树，使我们不必进行第二次测试[参见 J . Hopcroft 和 R . E . Tarjan , Cbmp/exiry of 
Computer Computations (New York ： Plenum , 1972), 140 — 142] 0 

23. 一个方法是形成包含所有三个人的集体的一个文件，然后把它变换为含有 
所有的四个人的集体的文件，等等；如果没有很大的集体，则这个方法将是十分令人 

满意的。（另一方面，如果有 n 个人的集体，则至少有个 A 个人的集体，所以甚 

至当 n 仅仅是25人左右时，这个方法仍可能失败。） 

以（~ ，…， ^^)的形式给出 列举々 个人的集体的一个文件，其中〜< —< 

，我们可以通过 （ i ) 对于使^〈^其分别的形式为丨〜，…，％^，^“〜，…, 

^_ 2 ，幻的每对々-1个人的集体，建立包含项，… ，以 _ 2 )的一个新 文件; 

( ii ) 按它的头两个分量对这个文件进行排序； U 0 在同原来给定的文件中的一对相 
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习题答案 


识者 （ b ， c ) 匹配的新文件中的每个项 （ b ，。，^ ，…，以- 2 )，输出々个人的集体（〜， 



y a k -2^b y c) 


O 


24 .( 由 Norman Hardy 给出的解，大约在 


1%7年）作输入文件的另一个副本; 


按照头一个分量对一个副本进行排序，按第二个分量对另一个副本进行排序。顺序 
地扫描这些文件，即可对于 -2 建立含所有对偶 （^，: c / + 2 ) 的一个新文件， 


并标识 — 丨，: c N )。 对偶（〜-込:^-“和⑺一/^应写到另一个文件上。 

归纳地继续这个过程。假定对于 l < i < N - “文件 F 以随机次序包含所有对 
偶 + 而且对于 N - 文件 G 以第二个分量的顺序，包含所有对偶 

( i ， Xt )。 设 H 是文件 F 的一个副本，而且通过头一个分量对 H 排序，通过第二分 

量对 F 排序。现在扫描 F ， G 和 H ， 同时建立两个新文件 〆 和。/如下。如果文件 
F ， G，H 的当前记录分别为（二， 〆 ） ，（: y ,：/) ， （ z ， 〆 ）则: 

i ) 如果： ^ = z ， 则输出 U ， 〆 ） 到 F / ，且推进文件 F 和 H 。 

ii ) 如果: c ' 二 y ，贝! J 输出 （: y - 〖，工）到 G ' ，且推进文件 F 和 G 0 

iii ) 如果/>：/，则推进文件 G 。 

iv ) 如果 / > z ，则推进文件 H 。 

当文件 F 被取尽时，通过第二个分量对 G ' 排序而且把 G 同它 合并； 然后以代替 

以圹代替 F ， 以 G / 代替 G 。 ^ 

于是 z 取值2,4,8, …； 对于固定的 t 我们扫描数据 0 (log iV ) 次来对它进行排 

序； 因此扫描的总数是 0(( logiV ) 2 )。 最后所以 F 是 空的； 然后我们只需按 
G 的头一个分量对 G 进行排序即可。 

25•(由 D . Shanks 给出的一个思想）对于0< rz < m ， 编制两个文件 ，一 个包含 
a 77171 mod f ,而另一个包含 f 。对这些文件进行排序而且寻找一个共同条 

目。 


注意： [这使最坏情况运行时间从 0( P ) 减少到 0 (^plog p ) o 进一步的重大改 
进通常是可能的。例如，通过测试是否 b {p - l)l2 mod p = l 或（/>-1)，在 log f 步之 
内，我们能容易地确定 n 是偶数还是奇数。 一 般地说，如果/是 f -1 的任何因子， 
而 d 是 gcd (/， n ) 的任何因子，通过查找长度为/“的一个表中^^ _1)// 的值，我们 

可类似地确定 （ Wd ) mod /。如果 p -1 有质因子。《“《…《仏，而且如果仏很 

小，因此，在对于基数 q ',".， q t 的混合进制表示中，通过从右到左地找出数字，我们 
能快速地计算”。（这个思想归功于 R . L . Silverl 964; 也请参见 S . C . Pohlig 和 M . 

Heilman,IEEE Transactions IT ，24(1978) ，106〜110。) 

John M . PoUard 基于随机映射理论，发现了以大约 0( v 5) 次运算 mod />，同时 
要求很少内存的计算离散的 log 的漂亮方法。请见 Math . Comp . ，32 ( 1978 ) ，918〜 
924,其中他也建议了基于数^ = ^mod p 的另一个方法，这些数有很小的质因子。 

习题 4.5.4-46 讨论了一些渐近地更快的方法。 


» 
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5 . 1 . 1 小节 


5.1.1 小节 


1.2 0522300 0;2 735418 6。 

2 . bi = (m - 1) mod n ;b J + i = (b } + m _ 1) mod (n — j ) o 

3 • 七 = a n + i ^ j (“反序的排列”）。这一'思想为 O . Terquem [ Journ . de Math . 3 

(1838)，559 〜 560] 用来证明，在一个随机排列中反序的平均数是| (^) 0 

4. Cl . 置0。（对于有可 能让巧 在以下的诸步骤中同~共享存 

储） 

C 2. 对于 々 = rz ， n - l ， …， 1( 以这一次序）进行下列工 作：置 0;然后置 

%恰~ 次； 然后置 工 k — 工 j Kx^ko 

C 3. 置 j — 0 0 

C 4. 对于 6 = 1，2，"_， tz ( 以这一次序）进行下列工 作：置 巧，然后置 

& o I 

为节省存储空间，请见习题5.2-12。 

5 •命 a 是非负整数的有序对的一个串 [7?^ ，〜]••• [7?^，〜]; | a | 二 A ，表示 a 

的长度。命 e 表示空串（长度为0)。考虑在这种有序对上递归地定义的二元操作。 
如下： 


£00^ = 0；。£： = 0；; 

([m ， ?z]a) 。 ( [ m" , 72 ' ] /?) = 

[ m ， n ]( a 。 [ m ' - ttz ， 〆 ]/?))，如果 m 
[ m ' - m ' - l ， n ] a ) 。 /?)， 如果 m 

由此得出为求 a 。/? 的值所需要的计算时间与丨0：。/?| = | a | + |/?|成比例。其次，我 

1门可以证明。是可以结合的，而且 [^,1. ]。[心2,2]。…。[6„,?2]二 [0， ai ][0， a 2] •••[()， 

、]。左边的表达式可以在 rig nl 次扫描中计算出来，每次扫描都结合一些串对，总 
共为 0( n log n ) 个步骤。 

例子： 从 (2) 开始，我们来求[2,1]。[3,2]。[6,3]。[4,4]。[0,5]。[2,6]。[2,7]。 
[1,8]。 [0,9] 的值。头一次扫描把它归结为 [2,1] [1，2]。[4,4] [1,3]。 [0,5] [2,6]。 
[1，8][0,7]。[0,9]。第二次扫描把它归结为[2，1][1，2][1,4][1，3]。[0,5][1，8] 
[0,6][0,7]。[0,9]。第三次扫描得到[0,5][1，1][0,8][0,2][0,6][0,4][0,7][0, 


3]。[0,9]。第四次扫描得岀（1)。 

动 机：一 个诸如[4,4][1，3]的串表示“ 4^3 这里 “ u ” 表示一 


个 空格； 操作 a 。/? 把/?的空格和非空格插人到 a 的空格中。注意，和习题2—起，我 
们得到 Joseph 问题的一个算法。它是 OU log n )， 而不是 OUn )， 同时部分地回 
答了在习题 1.3.2-22 中提出的一个问题。 

以一种直截了当的方式使用平衡树，即得到对于这个问题的另一个 0 (n bg 72) 
的解，这种解法使用一个随机存取的存储器。 
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题答案 


6•由开始。对于 ^ -Llg nJ,Llg ”」-1，…，0,进行 如下: 
对于 + 1 置0,然后对于^/^^，…^进行如下:置 r ^- Va } \2 k \ mod 2, 
LA /2 P 1 」 （这些实质上是位的抽取） ； 如果 r = 0, 则置 b a — b a + x 5 ，如果 r = l 

J J 

则置 X s x s + 1 。 

另一个答案出现于习题 5.2.4-21 当中。 

7 •乓 < ; SC ; <72 -)，因为屮左边有少于 ； -1 个元素，而右边有 n 个元 

素。为了从… JB „ 重新构造 <3 02，由元素1开始；然后对于是= 2,…， n ，对 

每个>々-氏的元素加1并附加 k _ B k 于右边（参见 1.2.5 小节的方法2)。对诸 

C 的一个类似的过程有效。或者我们可以使用下列习题的结果。 [ Rodrigues ， J . d e . 
Math . 4 (1839),236 〜 240讨论了 c 反序表。 C 反序表在1800年由 Rothe 使用，参 
见 Netto 的 Lehrbuc/i der Combinatorik (1901) § 5]。 

因为 ai -" a „ 的每对反序 （〜 ，〜） 对应于 a \ … a' n 

的反序某些进一步的关系当且仅当（对于所有的 i<j 有 b ， 

二 n _ j 当且仅当（对于所有的 z •乂有^>^);(0)6 ; =0当且仅当（对于所有 

的 /有 Cl - i < c J ~ j );( d ) c J =0 当且仅当（对于所有的 i<j 有 b ^ i < bj ^ j ;( e ) b t 

<6, + 1 当且仅当<<< + 1 ，当且仅当 Ci ^ c i + l ;({) aj = j + Cj ~ Bj；aj =J + bj - c jQ 

9.6 = C=f 等价于 a 


10. （对截八面体建立坐标的一种方式是命下列向量（1，0,0)，（0,1，0)， 



_1，1 , V 2) , 



1，乃）分别代表对偶21,43, 


41，31，42,32的相邻的交换。这些向量的和给出（1，1,2々）作为顶点4321与1234 
之间的差。） 

一 个更对称的解是通过 

- e 」（ M ， t ；) 是 7 r 的 一 个反序 I 

来表示四维中的顶点 7 T , 这里 ^! = (1,0,0,0),^2= (0,1,0,0), ^3= (0,0 4, 0),^4 = 
(0,0,0, l ) o 于是 1 2 3 4^(0,0,0,0) ;1 2 4 3^(0, 0, - 1,1)；-* ；4 3 2 1^( -3, 

-1,1,3)。所有的点都位于三维子空间丨 （ w ，： r ，3 Nz ) |^ + x + y z = 0 丨上； 两个 

相邻顶点之间的距离为力。等价地（参见习题 8( f )) 我们可以通过向量 

心)表示 7 T = ，这里 a \ a 2 a \ a A 是逆排列。（这个以排列作为坐标的截八 

面体的4维表不，以及它的 n 维推广。 C . Howard Hinton 在丁 he Fourth Dimension 

(伦敦， 1904) 第10章中讨论过。许多年以后 Gnilband 和 Rosenstiehl 发现了 一些进 
一步的性质，他们把图1叫做“排列面 体”； 请见习题12。） 

把截八面体的一些复制以所谓“最简单的”方式充填三维空间[见 H . Steinhaus , 
Mathematical Snapshots (牛津， 1960) ，200〜203 ; C . S . Smith,Scientific American 190 

(1954 年 1 月）， 58 〜 64 ] 。 Pappus 的 CoWecti'on (大约公元300年）提到截八面体作 
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为阿基米德研究的13个特殊的固体图形之一。阿基米德固体的图示即非棱形多面 
体有把任何顶点转换成任何其它顶点的对称性，而且它的面是正规多边形但不完全 
相等，可在比方说，由 H . S . M . Coxeter 修改了的 W . W . Rouse Ball 的书 Mathematical 
Recreations and Essays ( Macmillan , 1939) ，第 5 章； H . Martyn Cundy 和 A . P . Rollett , 
Mathematical Models (牛津， 1952)，94 〜 109 中找到。 

11. ( a ) 显然。（1))由诸顶点（1，2，"*，；2)及如果 x > y 且或: r <： y 且 
( y , x ) eE 时由: r — y 形成的弧，构成一个有向图。如果没有有向回路，则这个有向 
图可以拓扑地进行排序，而且得到的线性次序是所希望的排列。如果有一个有向的 
回路，则它的长度至少为3,因为没有长度为1或2的，而且由于一个更长的回路 q 

~^ a 2 ~* a ^ a 4 ^ - > a i 可以被缩短（或者或者 a ^ a x ) 0 但是长度为3的 

一条有向回路包含£:或互的两条弧，这证明了 £:或 E 毕竟不是传递的。 

12 . [ G . T . Guilbaud 和 P . Rosenstiehl,Mafh et Sciences Humaines 4 (1963) ， 9 〜 

33] o 假设 （ a ， b ) GE ，（ b ， c ) GE ， c )$ E 。 则对于某个 A ，我们有 a = x 0 > 

考虑这种类型 

的一个反例，其中 A 为极小。由于 U ，6) 冬£：(7^)和 （6， c ) 冬 £ Ui )， 我们有 U ， C ) 
氐 E ( q ) ，而且类似地 （ a ， C ) $ E ( 7 T 2 ) ;因此 k>lo 但是如果 A > 6，则（: Ci ，6 ) 6 
E ， 同々 的极小性矛盾，而意味着 U ，6) G £。 类似地如果则我 
们发现和（6，:^)6£：都是不可能的。 

13. 对于反序表中 ，…， - 1 ， L + 1 ，…， \的任何固定的选择。当跑遍 
它所有可能的值0，1, …， m - l 时，总和 2 A . 将恰取每一 modulo m 剩余一次。 

14. 题中提示的构造把不同部分的分划的对偶互相转换，两个情况 j = k = p k 
^ j - k - p k ~ I 除外。在例外的情况下，《分别为 (2 j - 1 ) +…+ j = (3 j 2 - j )/2 及 
(2 j ) + …+ ( 7 + 1) = (3尸+ ; )/2,而且有具有 ； 个部分的一个惟一的不成对的分划 

[Comptes Kendus Acad . Sci . 81 ( Paris , 1881), 448 〜450 。 Euler 原来的证明，在 Novi 
Comment . Acad . Sc . Pet . 5 (1754)，75 〜 83 上，也是非常有趣的。他通过简单的运算 
证明： 如果我们对于定义\为幂级数1 - 1 - + 1 ，则无穷乘积等 

于5 !。 Knuth 和 Paterson ^Fibonacci Quarterly 16 (1978) ， 198〜212上讨论了 Euler 

无穷和的有限形式]。 

15. 转置点的图式，以从诸 p 进行到诸容易得到诸 P 的生成函数，因为我 
们首先选择任意数量的 1( 生成函数 1/(1 _ 幻） ， 然后独立地选择任意数量的 2( 生成 
函数 -1/(1- Z 2 )), … ，最后任意数量的72。 

16. 在头一个恒等式中 z n q m 的系数是把 m 分划成至多77部分的个数。在第二 
个恒等式中，它是把 m 分成72个不同的非负部分的 个数： 即形如 77 Z = h + p 2 + … 

+ Pn 的和，其中 Pl>pn ^0 o 这和 m - 彳 = <?l + <?2 + … 相同，其 
中 91 ><? 2 > … 〜 >0 ， 对应关系为 = 九 - rz + [Commentarii Academiao Scien - 
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tiarum Petropolitanae 13 (1741) ， 64 〜 93 ] 。 

注意 ：第二 个恒等式是当 n —oo 时，习题 u.6-58 的 g 多项式定理的极限。类 
似地，第一个恒等式，是在该习题的答案中证明的该定理的对偶形式的极限。 

令 n\ q = IX^ =1 (1 + <7 + …并令 exp q (z) = D m = 。 // 打！ g 。头一个恒 

等式告诉我们，当 M < 1时， ex Pg U ) 等于 1/ H 二。 （1 _ q k z(l _ g )); 第二个告诉 
我们，当 | (? | > 1时，它等于+ q ~ k z(l - 厂 1 ))。得到的形式幂级数恒等式 

expg( z)exp g ~ 1 ( - z) = 1 等价于公式 


n 

k = 0 


(1 




g)".(l 


(- 1 ) Y ( ^ 0/2 

- q k )(\ - g ) … （1 - q n — k ) 


to, 整数 n >0 


它是对于： r - 

- 1 时 g 多项式定理的一^个结果。 


17. 0000 

0100 

0010 

0001 

1101 

1201 

1021 

1012 

1010 

0110 

0120 

0102 

1011 

0111 

0121 

0112 

1001 

0101 

0011 

0012 

2012 

0212 

0122 

0123 


18 •令<? = 1-户。对于所有反序 a 的情况求和的和数 SPr ( a )， 也可以通过对 
k 求和来计算，这里是具下列性质的最左边的二进位位置的精确个数，在 
这些位置中，2和 J 之间有等式成立且对于在一个反序 X : ㊉ z > x ; ㊉ J 中的 

和 X 之间也有等式成立。由此我们得到公式 + qWY + ' r - k - 1 

+ 2 pq 2 n ~ k ' l (2 n ~ k ~ l - 1)); 求和并简化，得到 2 n ~ l ( p (2 - P )(2 rl ~ ( p 2 + q 2 ) r 7 ) l (2 - 
p 1 — q 2 ) + (/> 2 + q 2 ) n - 1) 。 


19. 反序的个数是 -Irrnln] ~lm(j - z)ln ]) = 



0 <i< J<n 


_ mj mod 7? < mi mod 




0< r < w 


mrI ? 2」（r — (n — r ) 一 （n — r — 


1 ))， 它可以被转换成 + U -1)(/7 -2) -^^(m,r2,0)o[Creliel98 (1957).162 〜 


166 0 . 

20 . 请见 J■ J■ Sylvester,Anaer. J.Math. 5(1882),251-330,6(1883),334-336, 
§ 57 - § 68 ； E. M. Wright J. Lon don Math. Soc. 40 (1965),55 〜 57 ; 以及 J‘ Zol- 

nowsky ^Discrete Math. 9 (1974) ， 293 〜 298 。 


Jacobi 恒等式可以快速地证明如下：因为 


对于 q — uv 


jj (1 - w 

4k 1.2.6-58 的 g 多项式定理告诉我们， 
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5.1.1 小节 



两边乘以 IT 二 j(l - u k v k ) = JX^ =1 (i - ^) ，并且注意，对于固定的 j ，我们有 


\ nr - Q k ) = 1十0(9” +1_ 卜. | ) 0 当”—^时加 0 1)1恒等式就得到了 。 

\n ^ J iq k = l 

21 •把 C ; 解释成第 ； 次输出后栈上的元素个数。（关于6的特征和栈排列的 B 
表，请见习题 2.3.3-19) 。 

22. ( a ) 把数|1，2,…， nl 安排在一个圆周上就如同在一个钟的面上那样，并指向 
1。然后 对于 』 n -仫… ，1( 以这个次序），以反时钟的方向移动指针\十1步， 

从这个圆周上删去被指的数并把它称为 

( b ) 统计每个^就像环绕 + 1 那么 频繁； 这就是对于 ； >〗，~> + + 1 的 

次数。因此，对于屮 >屮 + 1 的每个 J /对应于曾被统计过一次的下标1，…，彡。[韩国 

牛，数学进展 105(1994) ,28〜 29] ;在下道题的上下文内， Rawlings 得到一个等价的 
结果] o 

23. 例如假设 n = 5 和〜 a 2 a 3 = 3 1 4 2 5。对于某个非负整数的卜，在 
每个死者之前未射中的个数必定是2 + 5 h ， 2 + 4々 2 , 1 + 3^3, 1 + 2^ 2 , k 5o 注意在上 
题的记号下，对偶的排列14253有/ I 表01122。 一 般地说，得到 Ah … 的概率将是 



( Q h r^ nk{ Pi ) ( 9 筌 - J+(n_1) 々 2 夕 2) … （ 4 


+ k 


^Pn) 


k 


k >0 


n 


1 — 1 ~ q 2 


1 ~ o n , 1- 


n 



^ ~ Qn 

1 _ q \ 


Qv 1 Qr 


9 - Q h n l 


其中 





1 _ 是在 j - 1 个死者之后致命的概率，而且 h ^ h2 *“ h n 对应于 (2 02 


… a 


n 


的对偶。特别是，当仏 
此最不可能的次序是 n 


P 


P 


时，这个概率是 


A1 + 


■ ■ ■ 


hn 


IG 


因 


21 


d [ J . Treadway 和 D . Rawlings , Math . Mag . 67 ( 1994 )， 
345 〜 354 ;Rawlings 在■丄 Math . & Math . Sci • 15 ( 1992)，291 〜 312 上把这个过 
程推广到多重集合的排列中。] 


24 •令 


0 ,并且说，如果 


+ 


则一个广义的下降出现在 n 处 


0 


在 


a 


i 和屮之间插入 n 引起一个新的广义的下降当且仅当… ）< n 。 假设 



' 有值 h > h >〜> h > 0 时出现;令 j 的其它值是 


# # ■ 


> 


Jk + lo 


于是 


n 


n ， 而且可以证明，当把 n 插在七紧前边时，广义的下标增加 n - k 0 [对于某个 d 

J k 


> 0 ,使 


d 的特殊情况是由 D . Rawlings 给出的，见 /. Combinatorial Theory 
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A 31 ( 1981 ) , 175183 ;Linear and Multilinear Algebra 10 (1981 )，253 〜 260 中他把 

这个特殊情况推广到多重集合排列中]。 

本题对于排列定义72!个不同的统计学，每个有出现于 (7) 和 （8) 中的生成函数 
G „( z )。 我们通过如下产生俄国轮盘的方法，可定义许多这样的统 计：在 7 - 1个死 

之后，开始下一轮射击的人是/^(^^，…，^^-。，其中力是在丨1， …， 《| \ | , 

七―〗丨中取值的一▲个任意函数。[参见韩国牛， Ca 〗 cu 〗 Denerfien ( Thesis , Univ . Stvas - 
bourg ,1992) ,1.3 部分， § 7] 0 

25.( a ) 如果有和 cr 一样多的反序，因为 ay 的兀素现在反序: Cj 而 
不是但是如果 ai > a „，/ i ( a ) 的反序个数少72 -1 个，因为&损失它的^的反 
序，以及~中每个元素的反序。因此，如果我们置^ ，并且递归地令: 

二 / (/i ( a )) ， 排列 /( a ) 二： ^…有所要求的性质。我们有 /( 198263745 ) = 
912638745以及 /[ _ 1] (198263745) = 192687345。 

( b ) 当 a — 是 a 的逆时，关键之点是 inv ( a ) = inv ( a ~) 以及 ind ( a ~ )= 
ind (/( a )~ ) o 因此如果 , a 2 — fi ^ i ) , a 2 = a 2 ， a 4 = /[ _1 ]( a 3 ) 以及 a 5 = a 4 ~ , 

我们有 

inv ( a 5 ) = inv ( a4 ) = ind ( a 3 ) — ind ( ) = ind ( a { ) = ind ( a ) 
ind ( a 5 ) = ind ( ) = ind ( af ) = ind ( a 2 ) - inv ( aj ) = inv ( a ) 

[ Math . Nachrichten 83 (1978) ， 143 〜 159] 。 

26 •[由 Doron Zeilberger 提供的解] inv ( a ) ind ( a ) 的平均是 

[〜 〉 ] / [ <2/ > a / + 1 ] 

71 * a l^j<k<n l^l<n 

它是次数 <4 的 rz 的一个多项式。对于 l < n <5 计算这个和给出分别的值0,|， 

鲁，警 ，警; 所以这个多项式必 定是皆 - 1 ) + ^ rz 2 ( n - 1 )2 。由 (12) 和 （13), 对 

于72>2,减去 mean ( g „) 2 和除以给出答案 9 l (2 n + 5)。 

27.当把…当作是一个多重集合的排列时，我们有 inv ( …〜） = 

inv(w … hw ) (参见 5.1.2 小节）。由此得出，利用答案16的记号和习题 5.1.2-16 
的结果 


H n (w yZ ) 


(1 — z) 999 (1 — z n ) 



U ) 


inv( a ^ a n ) ^ ind( a a^) 





a 


_ ■ 


a 


n 


1 n 


2 w inv( VH) z ?i + ? 2 + … + S = 

w …，％ 



s 


=n 


n 


[ 是 0 山 ，是 2 ，"' 


ZV 2 々2 


w 




5 丄 1 小节 




n!j^]n exp ^ i ^ u ) 

)二0 



打！ IT II 


J 


0 k 


1 — z ^ zv k u ( 1 — 


于是我们有漂亮的恒等式 



j , k >0 J 

这是由 


f k 


s 

n ^0 


^0 (1 - ^)U - - ^H1 - Z) 

P . Roselle 在 JProc . Amer . Math . Soc ，45 ( 1974), 144 


w 


)(1 - 


U ) 


_ Hr 

)•••(]_ 一 


U ) 


V J z ) u n 
”）（1 - z ){\ - 




- Z 2 ) *•• (1 - z n ) 

150 上对生成函数 


H n ( w , z )^ S a tt； indU 建立的。习题 25 表明同样的双变量生成函数统计下 

标和反序。这里给出的证明是由 Garsia 和 Gessel 给出的 [Advances in Math . 31 

(1979) ，288〜 305] ，他们继续下去得到更为一般得多的结果。 


在习题 4.7-27 中置 m = 00 导致递推式 




28.交换相邻的两个元素把总共的位移改变0或±2;因此 td ( a 1 a 2 - aj < 


2 inv ( 002 … ) 

我们也可证明 tdUp 2 …〜） SinvUih …〜）。 假设） 是离开位置的最小元 

素，且设 a k = j 。设【 是使/<々和的极大。 交换〜 和〜使反序减少 2 (k ~ 

I ) - 1 ，并使总共的位移减少 2U - Z )。 因此如果为了对一个给定的排列 

进行排序需要 m 次重复这个算法，我们有 tdUw 2 " •〜） = inv ( ai a 2 …〜）十 

注 意：一 个随机排列的平均总位移是 （ n 2 -1)/3; 见习题 5.2. 1-7。看起来对于 

总共的位移的生成函数没有一个简单的形式。 

29.我们可以作为 inv (7 r ) 个转置巧的一个乘积得到 tt , 其中 5 交换 j 和 十1。 

例如，图1中的通路 1234 —1324—1342— 3142对应于 r 2 ，然后 r 3 ，然后 r 1; 因此 
3142= r ir 3 r 2 。 因此通过作 invU ) 转置，其中每一个转置使反序个数改变± 1， 
可从/得到。由此得出， inv ( 7T〆Xinv ( 7T ) 十 inv ( 〆 ） 。如果等式成立，每个转置增 
加一个新插入，因此 E ( 7^)2_£( 7 T ') 。 

反之，如果 我们要来证明 lEU ，，） | _ \ E ( k )\ = mv ( K 7 r / ) 

- in〆 /) 个转置的某个序列将把/转换成 TT ；/。 这样的转置定义 7 T ， 所以这将证明 
inv ( 7r )^ inv ( tuz ' ) - inv ( n ); 因此等式必定成立。例如，假设 〆 = 314592587和五 

如果 £： ( tt ，） 不包含 （4 ，1 ) ， （5 ， 4) ， （9 ， 5) ， （6 ，2)或 （8 ，6 ) ，贝 ！ J 兀/必 

然等于/，否则 ^ tt 〆 ） 包含它们之一，比如说(9,5);于是 EU〆 ) 包含£(!■ 〆 ）= 
£(314952687)。这样，我们可以通过对 I £“/) | - | E ( ，）|利用归纳法来证明这 
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个结果。 


5.1.2 小节 


.假的，（由于一项相当重要的技术细节) 


o 


如果你说是“真的”，你大概不知道 


在 4.6.3 小节中给出的 M l {] M 2 的定义，它具有这样的性质 ：每当 和 M 2 为集 


合时， A ^ UA ^ 也是集合 


0 


实际上的一个排列。 


2. bc 、 addadadb 0 

3. 肯定不是，因为我们可以有 a 



。（然而，惟一因子分解定理证明，没有太多 


的可能性。) 


4. ( d ) T(b c d ) T(b b c a d ) T(b a b c d ) T ( d ) 


O 


5 .对偶 


mmm JOX 


■嘐 ■ 


出现的个数,等于？的列数，减0或减1 


0 


当： T 是最小的元素时， 


则当且仅当： C 不是排列中的头一个时，诸出现的个数相等。 


6.计算两行阵列的相关数很 容易: 


771 


k 


n 


k 


o 


7 .利用定理 B 的 （ a ) 部分，类似于 (20) 的推导给出 

/ A - 1 \ (B )( C\/B -h k 

\A — k — m ~ 1 / \ mf\k ) \ B — l 


B 


A — k — 
A - 1 


- 1 

i IB 


C 

k 


C ~ k 


A — k — m 
A - 1 


m 

B 


A - k - 


m 


m 


C 

k 

c 

k 


B ^ k - 1 
B - Z — 1 
B + k - 1 
B - l 


C ~ k 


C ~ k 


8 .完全的质因子分解为 （ d ) 丁 （6 c d ) j ( b ) T(a db c ) T ( ab ) j(b c d ) T ( d ) ^ 
是惟一的，因为没有相邻的对偶可交换。所以有8个解，且 a = ( Ad ) f ( d ) T(b c 


10.假的，但在一些有趣的情况下为真。给定质数的任何线性次序，至少有 


个 


所述形式的因子分解，因为每当违反这个条件时，我们可以作一个交换来减少因子 
分解中的“反序”个数。所以条件不成立的原因仅仅是某些排列有多于一个这样的 
因子分解。 

设户〜 a 意味着^同^可交换。对于所述的因子分解的惟一性来说，下列条件 
是必要和充 分的： 


P 


a 


T 


且 


9 


6 


T 


意味着 P 


r 


证明 ：如果 p 


a 




r 和/9 -< r 且 ( o / r ， 则我们将有两个因子分解 a T r Tp 


rTpTq 因此条件是必要的。反之，为了证明它对于惟一性是充分的，令 

是满足条件的两个不相同的因子分解。我们可以假定 q ，因 


Tp n = < y \ 是满, 

此对于某个 々> i 有& 


pk ;其次，对于 l ^ j<k 


Pi 


o 


由于 Pk-l 


汀 1 


外，我们 


有 外 因此6>2。设 J 使得 A 4 ft ， 而且对于 ]< i < k $ Pi 


Ji 。 则巧 + 




^1 




ft 和 ~^ Pj 意味着 ft 


ft ; 因此 ft — 


，矛盾 
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因此，若给定在质元素的一个集合 S 上的一个有序关系，它满足上述条件，而 
且如果知道一个排列； r 的所有质因子属于 S , 则我们可以得出结论说； r 有所述类型 
的一个惟一的因子分解。例如，当 S 是 (29) 中循环的集合时，这样的条件成立。 

但是，不能用这种办法对所有质元素的集合排序。因为如果有，比如说 （a bB 
( de )， 则我们被迫定义 

(a b ) ~^\ (d e))^(b c ) (e a ) y~(c d ) (a b))^{d e ) 

矛盾。（也请看下一习题。） 

11 . 我们希望证明，如果是（1，一，0的一个排列，则当且仅当&⑴ 

丁… T ( J p ( t ) = 丁…时排列％⑴… a ⑴被拓扑地排序；而且如果工 p ⑴…工⑴和 

%⑴…％⑴是不同的拓扑排序，则我们对于某个7有％⑺。第一个性质可由 
下列事实推出：％⑴成为一个拓扑排序中的头一个的充要条件是 &⑴与 &⑴… 
a x 可交换(但不同于它们）；而且这个条件意味着％⑵丁… T 化 ⑴ = A T … T G P (\)~\ 
T % ⑴ + 1 T … T 〜， 所以我们可以使用归纳法。第二个性质可由下列事实推出，如果 
j 是使 p ( j ) \ 中之极小的，则由拓扑排序的定义，我们有，比如说 aG )< g ( j ) 

以及 Xp ( j ) Kx q ( j ) ；因此化⑺同 q ⑺没有公共的字母。 

为了得到一个任意的偏序，设循环 Q 由所有使得且 Z = A 或 J ‘ = 々 的有 
序对偶 Ud ) 组成； 这些有序对偶作为循环的个别元素以某种任意次序出现。于是 

对于偏序 A ~^ x 2 , x 3> ~^ X 4 yJ 0 l ~^ x 4 的循环将是 CT ! = ( (1,2) (1,4) ) , ^2 = ((1,2))， 

^3 ~ ((3,4)) ，。4=((1，4)(3,4)) 0 

12. 不能形成其它循环。因为，例如，原来的排列不包括?列。如果出 
现 s 次，则 （<2 6) 必然出现 A _ r - s 次，因为有 A - r 个 〖列 ，而且仅仅两类循环贡 
献给这样的列。 

13. 在两行的记号下，首先放置形如 f 的 A 个列，然后放置其他的 r 个 a 于第 

二行中，然后放置诸6，最后放置剩下的字母。 

14. 由于在 ； r _ 的两行记号下，任意给定的字母下边的元素，是处于非减次序的， 
我们不总有 UT =; r ; 但是 （（7 T_)_r =7^是真的。事实上，恒等式 

(aT/3)- = ((a~ Ti 5 ")")" 

对于所有的成立。（见习题 5-2) 

给定一多重集合，其不同的字母为：…注意到它们的每一个都有形如 

卢1 丁… TAn 的惟一质因子分解，这里爲有0个或多个质因子 （:^) T … T (： c ;) 丁 
(:^% ) T … T) ， j < ，我们可以此表征它的自逆排列。例如， （ <2 )T 

( ab ) T ( ab ) T(b c ) T U ) 是一个自逆排列，丨 m • a ， n • 6丨的自逆排列个数因此是 

min( 772 , 72 ) + 1;对于丨的自逆排列个数是不等式 ：C + I , X + Z ^： 

m , y + z ^ n 的非负整数解 zyz 的个数。 一 个集合的自逆排列的个数在 5.1.4 
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节中考虑。 


在两行记号下有化 7 个^的出现的 


CC\ ，…, n 




J 


的排列的个数是 R { n ： ! 


n ^%!， 和在两行记号下有〜 




的出现的个数相同。因此应该有一个更好的定义 


个多重集合排列的逆的方法。例如，如果像在定理 C 中一样，; r 的质因子分解是 


T <y 2 


^ i ) 


§ § 


则我们可定义 K 


=T … Tff2 一 Tq 


其中 ( 


… JC 


# _ # 

乂 , J 


o 


Dominique Foata 和韩国牛已经发现，如果以这样的方式，即 7T 和 7 ： _ 有相同个数 

的反序，来定义反序是更合乎要求的，因为给定数~的反序的生成函数是 

见习题16。然而，看起来这并不是定义有该性质的一个乘方的自然方 


式 


15.见定理 2.3.4. 2 D ，撤销该有向图的一条有向边，定能得到一棵有向树。 


16 •如果 x 1 X2 ^ 




，对于诸^的反序表条款必定有 


.的形式。 


其 


中.(最右的 


^的反序的个数）至多是刃 +1 +力 


+ 2 


十 


• » 


。所以反序表的第7部分 


的生成函数分划成至多义个部分，没有超出 力 + 1 +力 +2 +…部分的生成函数。分 


划成至多 m 个部分，无超出 rz 的部分的生成函数，是 z 多项式系数 


m 



n 


;这通 


m 


过归纳法很容易证明，而且它也可以借助于 F . FrankUn 给出的巧妙的构造来证明。 


_ Amer . J . Math 


(1882)，268 




269;也请见 P 6 lya 和 Alexanderson,Eiemente dev 


Mathematik 26 (1971) ， 102 〜109。 ] 对于 


1，2, 


把诸生成函数相乘给出多重集合 


的排列的反序所要求的公式 。 MacMahon ^ JProc . London Math . Soc . (2) 15 (1916)， 

314 〜 321 上发表了它。 


设 




!;则所求的概率生成函数是 




h n ( z )/ h n ( z ) 


n 


\ 2 U ) …。由等式 5.1.1-(12)，/ i „ U ) 的平均值是食 b j ， 所以 g 的平均值是 


2 


n 


2 


n 


2 


n 2 

2 




4 


( n 


n \ 


^2 




2 




n j 


i<J 


类似地，方差是 




72 


( n(n - 1) (2 n + 5) - nj ( 


n 


-1) (2 ni ， + 5) - 


8 ■ 


元 (n 3 - n\ - n\ - …） + ^ 4 ( n 2 - n\ - n\ - …） 

18 .是 的； 可以直截了当地推广习题 5.1.1-25 的构造。或者，通过构造 m 元组 


(<?1"”，^)为 


方和元组的有序对（（^， 


參 ■ 


， A ) ， （ ，…， )) 为另 




方这两者 


之间的 


_ 纆 


对应，其中％是包含力个非负整数的一个多重集合，以…、是丨化*1， 


… y n 


m 


m 丨的一个排列且 


>九>0,我们可以推广 5.1.1-(14) 后面的证明。 


给定％的所有元素的下标 J ，这个对应和以前一样来定义。它满足条件 


2 (9i) 



_ 暑 _ 




ind( ■** a n ) 



(Pi + 



Pn) 


其中是％的元素之和。[关于在这个证明中所使用技术以及等式 5.1.3-(8) 
的推导进一步的推广，请见 D.E. Knuth,Math. Comp. 24 (1970) ,955 - 961 0 也可参 

见由 Richard P. Stanley ^EMemoirs Amer . Math . Soc . 119 (1972) 中所作的广泛的讨 

论 o] 


19.(&) 设 5 


k 是质元素，^是 TU 的左因子1 


0 


如果 S 有 k 个元素， K 的使 


^(X )^0 的诸左因子 X 恰巧是 S 子集的 Y 个插人（请看定理 C 的证 明）； 因此 


2"( a ) 

k ，有 ii 




^s(l + "⑷） 




0,因为 fi { a ) 




-1 而且 S 非空。 （b) 如果对于某个 


l k ，则显然 ((込…込) 




"( 7 T) 




0 


0 


否则当 g 


l 有 


r 


个反序时，<(“ 


…2 




=(-1广；当 i x - i n ^ S 个偶循环时这就是（-I ) 5 ;当 ir •乂有〖个循环时它是 

(-1) 出。 


20. U) 根据插人的定义，显然。 （b) 根据定义 


det( b ：： 


s 




摯 • 


bmi 


1^ 


置6’ 




a A ，并应用习题19 (b) ，我们得到 


S 

n^O 


S 




# ♦ 翁 


Xi fJL(xi ) v{xi ### x 




n 


n 


因为 〆 TT ) 通常为 0 


o 


定 （a 


(c) 当我们把诸 i 的乘积看作是不可交换变量的排列时，则利用自然的代数约 

+召）丁; r = ay ^ + /?丁兀，可用习题 19(a) 来证明 D TG = 1。 

D. Zeilberger,Discrete Math . 56 (1985)，61 〜 72 已经给出这个组合证明和其它 


重要定理的类似证明的一个简洁的表述。 


21.对于々<0,如果我们令以 


0,则为叹 


n k + ••• + 茂走一 d 

竹 k 


，因为有 


n 


+ 


~ 1 ~ 71 m - ^ 


种方式来把诸 m 插人到 U 


# 


1 ， 


■ 參 A 


, 72 m _! • ( 77Z - 1) I 的这样 


个 


n 


m 


排列中 


o 


22. (a) 对于某个 A ， Z(3T) 的左右颠倒是在 Po(0^1 n i 


• 蠡 


A ) 中； 但代替颠倒 l ( rr ), 


我们将通过把0放在顶行之尾而不是之首给出它的两行形式。在/(兀）和 r(;r) 中0 


的个数 A 是对于的的两行形式中列 


的个数；这也是使 k <： t < j 的列的 


个数。从 Z(;r) 和 r(;r) 的两行形式我们可以容易地重新构造 ；r ， 因为使的 


每个列 i 出现在 ZU ) 中，使的每 


列出现在 r(;r) 中，剩下的列通过从左到右 


地把 K；r) 的 i 或2同 r(;r) 的2魂)合并而得到。 

(b) 设 ；r 是所述形式的一个排列，并设^是 
造 A 如下 ：删去 a 的头 n。 个项； 然后以诸： c 代替诸0,并以 


77Z 〜）的任何排列。构 


-TT 


的头 




个项来作下 
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标； 以诸 y 来代替其它元素，以 T 的剩下的非0项作为下标。并且还构造 P 如下 •• 
删去 CT 的诸 0, 并且从左到右，根据 7T 的列 i 有々 =0 或々参 0, 用 A 或％来代替 J 的 


/2 ; 个岀现。例如，如果 


00000011111222233333 日 = 00000011111222233333 
23131302310102032010 ’ ^ ~ 32313201103201300201 


我们有 a = 和 p = y ^ yiy ^ x \ x ^ x iy \ y \ y ^ yiy \ x ^ Xr i x \ ° 

反之，从 A 和…我们可以重新构造 7 T 和〜 

( c ) 我们在 ( a ) 的构造中有 wU ) 二 w ( ZU )) zt ;( r (7 r )) ; 因为 ？ r 的列4或变成 

Z ( 7T ) 或 r (; r ) 中权 zvjlzv k 的4，或者它被因子分解成有权。和 z ol z k 的列和 f 。 
如果 Z (7 T ) 有岛个列？和 ％ 个列 ; 0 ,它的权是 ilj = 1 ( z]j wjj ^ / Zp zvp - p ^) = ^ = 1 ( IV } l 
Zj ) p jqj o 现在句 =1 (%/3) _ 1是的复共扼，所以对 Po (0 A lW ) 的 

所有元素权之和可简化为 



类似的说明对 r (7 T ) 也适用。所述之和是正的因为对于々=0的项非0。 

23.我们可以假定原来的线已被排序。设在上题的部分 （ C ) 中 ，i = 2 ，m =4 ，um 

- w 3 - Z l = Z 2 = + 1 ， W2 = 加4 二之 3 = 之 4 二 _ 1。于是 < ^(7T) = ( _ l ) d ， 其中 d 是使 j 

★ k 的列 4 的个数。[见 Cillis 和 Zeilberger , European J . Comb . 4 (1983) ,221 ^223 0 

这个结果首先由 Askey、Ismail 和 Koornwinder , J . Comb . Theory . A 25 (1978),277 〜 
287 以完全不同的方法证明的。他们发现了在多重集合的排列和 （ Laguerre ) 多项式 


K ( x ) 




k =0 


k 


)( - 


X 


Y \ k \ 的乘积的积分之间有趣的联系]。对于五个字母的 


字母表类似的结果为假，因为 U ，2,3,4,5} 的5!排列包括有偶数差的1 + 10 + 45, 


和包括有奇数差的0 + 20 + 44。 ^ 

2 4 . ( a ) 把= ，置 两次恢复成二 z '给定排序 (:； = (2_::2)，通 

过找出在顶上的行中最左的工并把它转置到左边来使之无序。这引出适当的 yo(W 


/ / 

的值也是惟一确定的） 0 

bn 7 

( b ) 我们实质上把 7 T 的两行记号表达成形式 

」汐1 >2 

7 C =排序 

3^1 wur ••乂 I 

而且部分 u ) 为我们提供了我们精确地需要的工具。[当只保持两行记号的某些统 
计学时，这个构造提供了一些有趣的定理的组合证明。参见韩国牛，数学进展 1 ❶ 5 

(1994),26 〜41。] 


5 . 1.3 小节 


1.我们只需证明对于工=々，当 k > l 时，这个值使 （11) 成立。利用（7)，这个公 
- 564 • 




5 . 通过公式 （13)， 习题 1.2.6-10, 以及定理 1.2.4 F , 对于 ^三 （k + 

1) 夕一是 0三（々十1)一々三1 (modulo p ) 。 

6. 首先对 々求 和是不允许的，因为对于任意大的 j 和々，这些项非0,因此绝对 
值之和是无穷大。 

作为较简单的出错例子，设 a jk = ( k ~ j )[ |>_幻 =1], 于是 

S ( 2% ) = 2 ( A 。） = +1 而 S ( S ^ ) = S ( - ^ o ) = - 1 

j>0 k^O j>0 k>0 j^O k>0 
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7•是的。 [ F.N David 和 D . E . Barton 9 Combinatorial Chance (1962) ， 150 〜 154; 
也参见习题 25 的答案。] 

8 . [ ( )1 (1915) ，190 ] 由容斥原理。例如， 1/( G G ! 

(,4十 Z5 + ,6) !是工; L < *•• 〈工 、+ / 2 ，《 X/i + Z 2 + 1< ’*_< A 【 + ~ ~ 以及工、+ / 2 +/ 3 +1<^*.< 

+/ "声 概率。 

N . G . de Bruijn 已经给出了用来计算其路段长度分别为(, 1 ，…，八）的丨1，…， 

的排列之个数的一个简单的 O ( n 2 ) 算法 ， Nieuw Archie f voor Wiskunde (3) 18 

(1970)， 61 〜65。 


9 .在 (23) 中九 


m 


Qkm 


Qk(m + 1) 0 


因为 2 


f mQkm^ 工 


X 


1 — X 


貧（工，2：)和 g(x yO ) 


1，我们有 


h(z ， 


X 



u ) 


X 


X 


\ — X 


g{x ,z)(l- z 


- 1 



X 


1 - 


z 


一 1 


(1 — z 


)x 


X 





z~ l X 


1 - 


X 


于是 hAz ) 


e z ^ ( e z - 1)1 z ; h 2 ( z ) — ( e 2z — ze z ) + e 2 — ( e 2z — 1)1 z Q 


10 •设 M n 


L ， … + L W 是 均值; 则 SM /二 /^( l ，：^) 这里是对 ^ 求导数的， 


比如说这是 x /( e x_1 - x ) - xl (1 - x ) 

r 的一个圆周积分 




M ( 


x 


，由残数定理，如果我们沿着半径为 


2 tc 1 


： OM ( z ) z 


一 n 一 1 


dz 


M -2 


n 






+ 



之 l 

之 l - 1 



r i 

之 i -1 


其中 | q |< r < 

于 f \ M ( z)\r 


之 2 

一 7i 一 1 


o 


(注意在 z 


1处的二重极点) 


其次，这个积分的绝对值小 


dz 




0 ( 


r 


力） 


0 


在越来越大的圆周上积分就给出收敛的级数 


M 


n 


2 n - 





为了确定方差，我们有 A "( l，x 


— 2/ i / (1 9 x ) — 2 x (x — 1 ) e 


x ^ I I / - l _ \2 




X 


个类似于已对均值使用过的论证（但这次是对三重极点）证明了 /1〃（1,工）的系数 


渐近于 


2 ■ 4 


+ 





n ~2 M n 加些较小 的项； 由此得方差的渐近公式 + | (加上指数 


较小的 项）。 

n ^ p kn 


S 


>1, 


»秦秦 


f k-i 


>1 1)0 1 广.，心— 1 ，72，1)，其中 DUnG ， …， 4) 是习题8的 


MacMahon 行列式。按它的头一行计算这个行列式，我们求出 


〔0 P (k - l)n 


C\P(k-2)n + 


ft _ ■ 


十 


_ 1) 


Ck 


S 


P l 71 - Ejn )， 其中 q 和仏定义 如下: 


- IV S 


， ， V1 

/- 1 


>1 


+ … + t j+l ) 


-ivS 


m 


m^O 


m 



l ) 


m 



^ m^O 



E x ( n ) 




r / (tw + 1) ! 

l/(n + l )!- l/n 


- 1 



e 右-六 + …十 ㈠ ) 


E 


n 


l/(n 



1 )!; 
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5.1.3 小节 


E k ( n ) 


- 1) 



m 


>o 



1 


设 


Pon 




o ， cu) 




2 c，〆 


( e 1 


Z 


- 3 /(n + 2 + 


-1)/(1 - z ) ，并设 


m 


)!， 



>3 


E ( z . 


X 




々+ 1 


( n ) z n x k 


1 - e" + 


e 


x 


- 1 ) 


X 


2 


n y k 


(1 - 


X 


) 


2 


x 2 (^ x - e z ) t z ~ 1 ~ z 

(1 - * 3:)(1 — X — z) z(l — X ) 

我们已经导出的递推关系等价于公式 C ( x ) H(z y x ) = H ( z , x ) I x + E ( z , x ); 因此 

展开这个幂级数给出 H l ( z ) = h x ( z ) 

( 见习题 9);H 2 ( 之） =ehi(z) + 1 ~ e z o 


[注： 头三个路段的生成函数是由 Knuth 导出的 ， CACM 6 (1963)，685〜688。 
Barton 和 Mallows , ^Ann . Math . Statistics 36 (1965) ,249 页上指出 了对于的 

公式1-圪 + 1 (幻=(1-氏（2))/(1-幻-和公式（25)。解决这个问题的 

另一个方法在习题23中说明。由于相邻的路段是不独立的，在这里所解决的问题 
和习题9的更简单(但大概更有用）的结果之间，没有简单的关系。] 

12. [Combinatory Analysis 1 (1915) ，209〜211 ] 把多重集合放置到 Z 个可区 
别的盒子中的方式数为 


N t 


t 7 %i — 1\/^ + 722 — 1 


t + n m ~ l \ 


n 


n 2 


n 


m 


因为有 



n\~ \ 


n 


种方法来放置诸1，等等。如果要求没有空的盒子，则容斥原理 


告诉我们方式数为 


M t = N t - O— ! + 0-2 -… 

设 h 是有々个路段的排 列数; 如果我们在诸路段之间放置 A - 1条垂直的线，并且 

在72 -々个剩下的位置上的任何地方放置条另外的垂直线，则得到把多重集 
合分成〖个非空的可区别部分的个方法之一。因此 


M t = P t + 







等置两个的值，就可借助于 N ^ JV ^ …逐次地确定 P 1 , P 2 ,--o (我们希望见到 
一 个更直接的证明。） 


13.1 + +13><3 = 20.5。 

14.由 Foata 对应式，给定的排列对应于 


1111222233334444\ 
3112343211342244/ 

由 （33) 式这对应于 


(31) T ( l ) T … T (4) = ( 
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/I 1 1 122223333444 4\ 

\2 44333114421212 3/ 

这对应于具有9个路段的234234142143213 1。 

15.交替路段的个数是1加上使得 1 < j < n 且…- ! < ay > 屮 + 1 或 a } - x > aj < 

七 + 1 的 ； 的个数。对于固定的 h 这个概率为 I ;因此对于 平均是 l + |~( n - 


2) 0 

16.当新的元素72被插入到所有可能位置时， U ，2, …， n - l | 上的每个有々个 
交替路段的排列产生带有々个这样路段的々个排列，带有6 + 1个这样路段的2个 


排列，以及带有 A +2个路段的72 -々 - 2 个排列，因此 


I 


71 




n — 1 

k 



2 


n ~ 1 

k -1 


+ {n — k ) 



命〜0, G / z ) = 1 是方便的。于是 


G n (z) = —((1 - z 2 )G\-i(z) + (2 + (n - 2) z)G n -i(z)) 

n 

微分导出 〜 = G ；；(1) 的递推式 


x n = 一 (( n - 2 ) x n -x +2 ?i - 2) 

71 


而这对于 ?1>2 有解& =吾72 _ |。另一个微分导致对于 A = G 〗（ l ) 的递推式 

1 // ^、 8 2 26 
y n = — {n - 4 ) y n - [ + —n - 

n \ j J 

4 ^ 14 11 

置 3^ = a /2 2 + jSr 2+；/ 并对求解，对于 ”>4 得到 3^ = _ 巧” + 而。 因此 



var ( g n ) = g ^( l 6 n — 29 ) ， nX 

这些均值和方差的公式是 J . Bienayme 给出的，他未加证明地指出了它们 [ Bull . 
Soc . Math , de France 2 (1874) , 153 ^ 154 ；Comptes , Rendus Acad . Sci . 81 ( Paris , 1875) ,417 

〜 423 ，也请看 458 页上 Bertrand 的注记 ]。 jj = j 的递推关系是 D • Andre 给出的 [Comptes 

Rendus Acad . Sci . 97 ( Paris , 1883) ， 1356 〜 1358 ；AnnaIes Scientifiques.de 1 'Ecole Normale 
Superieure (3) 1 (1884) ， 121 〜 134] 。 Andr 6 说明对于 _ 1) = 0; 因此，具有偶 

数个交替路段的排列的个数是 n ! /2。他也证明了均值的公式，并确定了具有极大的 
交替路段个数的排列的数目（见习题 5. 1.4-23)。可以证明 



其中 是递增路段的生成函数 （18) 。[见 David 和 Barton .Combinatorial Chance 
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( 伦敦 : Griffin ， 1962)，157 


162] o 


17 . ( 2 Vi)4%) 个以 0 结尾 4 二 ) 个以 

18. U ) 设给定的序列是如同在 5.1.1 节中的一个反序表。如果 它有々 个递降 
的路段，则对应的排列的反序中也有々个递降，（见答案 5.1.1-8( e )) ; 因此答案是 


71 



( b ) 这个量满足 f ( riyk ) 




是 /( 



1)/( n - lyk — 1)，因此它 


n 


必定是 Q 一 。[参见 D . Dumont y Duke Math . J . 41 (1974). 313〜315 


19. ( a ) 由定理 5.1.2 B 的对应结果得 


n 



( b ) 有 （ w - A )! 种方式把另外的 n 


-k 个不相拼的车放置到整个棋 盘上； 因此答案是 ll ( n - k)l 乘&%〜匕)，其中 

由部分 （ a ) ， a n j 二 0 。 由习题2,这导出 | 72 ^ J o [ Riordan 的 introc/uction to Corn - 

binatorial Analysis (Wiley ， 1958) 的第 5 章 一 般地讨论了车的设置问题]。 

由 （E.A.Bender) 给出的关于这个结果的一个直接证明，把使丨1，2, …， rz 丨分成 
为々个不相交的非空子集的每一分划与 （n -幻 个车的一种排列联系 起来： 设分划 
是 

|l，2，".，nl = Un，a 12 ，… ，a lrJ 1 U … U i a kl , a kl , •••, a kn 

1 k 

其中对于有％ < +1 ) 。对于々，对应的排列 
把这些车放置到叫, + 1) 行％列中。例如，图4中所示图形对应于分划 U,3,8| U 

i2|Ui4,6|Ui5)Ul7|o 

20. 阅读的次数是逆排列中路段的个数。头一个路段对应于头一次阅读，等等。 

21. 它有72 + 1 -々个路段并需要 W + 1-j 次阅读。 

22. [J. Combinatorial Theory 1 (1966) ，350〜374 ] 如果 n<；2, 则某次阅读 

将挑出 t > r 个元素 ，〜 -j + 1, j + ^，其中 …< i t o 对于在 m < 

1 I 

心 + 1 范围内的所有 m, 我们不可能有 a m >‘ + 1 ，所以这个排列至少在 t -1个位置 
上有 a m < a m + 1 ;因此它至多有 n_〖 + l 个路段。 

另一方面，考虑排列，其中块区~以递减次序包含数三 j (modulo r ) ; 

例如，当 n=9 和 r = 4时，这个排列是847362951。如果 n>2r - 1,这个排列有 r* - 
1个递增，所以它有 n + 1- r 个路段。而且，如果 r>l， 它恰好要求 rz + 1 - U/r] 次阅 
读。我们可以任意地重新安排丨& + 1， …， H 的元素而不改变路段的 个数; 这样， 
我们可以把阅读的次数减少到>「〃"1的任何所要求的值。 

现在假设 rs ^- n 和 r + s<r2 + l, 以及 r , 5^1 0 由习题20和21，我们可以假定 
r<5 ，因为有 n + 1-r 个路段和 s 个阅读的一个排列的反序的反射有 tz + 1 - s 个路 
段和 r 个阅读。于是上一段中的构造处理了除 s>n + l_「7z/r1 和 r>2 之外的所 
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题答案 

有情况。为了完成证明，我们可以使用形如 

+ 1 2 是 — 1...1 ?2 + 2 - r n + 1 - r^ r 2k + 2 2k'''2 n + 3 — r".n -In 

的一个排列，对于 n _ r) ， 它有 n + 1~ r 个路段和 rz + l - r_ 々个阅读。 

23. [SIAM Review 3 (1967),121^122] 假设无穷排列由取自于一致分布的 
独立样品组成。设 f k ( x ) dx 是第々 个最长的以： c 开始的概率，而且设 g ( u , x)dx 

是当上一个长路段以 w 开始时后一个长路段以: r 开始的概率。因此有 = 

fk + i (^ c )= I ofk ( u ) g( u ,^) dwo 我们有 g(u , x ) = w ， x ) ，其中 

心 U ，工 ) = PrU < & 〈… < : r 或 w > & > < 工 ) = PrU < X ! < 

… < ) + Pr ( w > X ， > … > X m ) _ Pr ( w > Xi > …〉 

X m > x ) = ( w m + (1~ u) m + I u - x \ m )l ml 

因此 g ( u , x ) = e u + e l ~ u - l ~ e I w " x I ，而且求出 / 2 ( ^： ) = 2 e - 1 ~ e x - e 1 " x 0 

可以证明 ) 趋近于极限值 (2 cos (: c - y ^ _ sin + _ cos 士:丨 :3 sin y _ cos 士)。 

以 z 开始的一个路段的平均长度是 f + 因此第 A 个长的路段的长度爲 

是 UA ( 工 ）（# + e 1 _ 工 _ l)dx ; 劣 = 2e _ 3^2. 43656 ;^ = 3e 2 -8e + 2^2.42091 。类 

似的结果见 5.4.1 节。 

24. 如同前面一样进行论证，结果是 

1+2 2 "( P 2 + Q 2 ) k ( p 2 + 2 pq (2 n - k ~ 1 - 1 + q 1 {{2 pqy- k - X - l ) l (2 pq - 1))) 

0^ k 〈 ” 

求和，并简化之得出 

2 n ( p 2 + q 1 ) 八 p(p _ q)Kp 2 + q 2 ~ pq) - y ) + (2 pq ) n pq 2 l ( p 2 + q 2 ) X 

( p 2 + q 1 ~ pq ) q 2 l ( p 2 q 2 ) ^ 2 n ~ l 

25 ■令 V 厂 （R + … + L 7 ; ) mod 1; 则 V ! ，…， 是在 [0. • 1) 中独立一致的随 
机数，并且当且仅当 LR 十…十 Uj = k 时形成有々个递降的一个排列。因此，答案 

是 这是首先由 S . Tanny [ DuiceMarhJ ,40 (1973) ,717 〜 722] 首先注意到的 

一 个性质。 

26. 例如，0 5 (1 - z)~ l ~ (z - 26 z 2 + 66 z 3 + 26 z 4 + 之 5 )/(1 - z ) 6 Q 

27. 下列规则定义了一个——对应，它 把有々 个递降的一个排列对应 
到有 k + l 个叶的一个 n 节点递增的森林：头一个根是，它的后裔是对应于 … 

a k 的森林，其中々是使得〜 + 1 <〜的极小值或者 k 二 n 。 [ R . P . Stanley ， Enumera - 

tine Combinatorics 1 ( Wadsworth , 1986) ，命题 1 ■ 3■ 16] 。 

28. LU ) 的极是 T ( l / e ) 的诸值，其中 TU ) 是由 = 定义的（多 

值)树函数。于是对于 m >0, 我们有收敛级数 
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5.1.4 小节 


Z M 


a 




>o 


念？ (- 1 ) 


k 


n 


_k 


( lna m ) 


n + \- k 


n 



1 -々）！ ， 


a 


-1 — (2 


m 


+ 1) 丌 i 


[ Corless , Gonnet , Hare，Jeffrey 及 Knuth ， 〈计算数学进展 〉 5 (1996) ， 329 〜359, 


公式 （4.18) 。]特别是，我们有 z m = (2 m + y 7 ri + ln (2 jre 7 n ) + ( + - ^ Jln (27 rem ))/ 
m + O ( (log m ) 2 / t?2 2 ) 0 

令 P ( z ) = T / < ^ = q ( zI(z ~ z m ) + zj ( z . ， 由此得出，对于 x > 1 , P ( x ) ~ P 
(~ x ) = E : = o 4 況 （• r %" x 2 ~ z 2 m )) = TjZ = iO ((x log m ) l ( x 2 + m 2 )) = = \ O 

((x log x ) lx 2 ) + T，Z=-^c + \0 ((x log m ) lm 2 ) = 0 (log 工） 0 但我们知道，对于某个 


c y L ( x ) + P ( x ) 二 d ; 因此 2 cx = L ( j :)- L ( - x ) + 0( log x ) ，而且通过在 （25) 中 
含 x — ⑺，我们求得 c = -1/2,因此 L x = HZ = ~ m l cosd m -1/2,( 这一结果是由 

Svante Janson 给出的 ） 0 


5.1.4 小节 




2. 当把 A 插入到列〖中时，设列 z - 1 中的元素是巧。贝 ij (%， 九）是在类〖一 1 
中，％<1，而且巧< A ;所以由归纳法，存在具有这个性质的下标 …^ 反之， 
如果和 pj < pi 而且如果（％，朽）在类 t ~ l 中，则当插入久时列〖 - 1包含一 
个 < A 的元素，所以 （ 9 l •，/0在>£的类中。 


3. 当插入 A 时，这些列是“冲撞序列”（9)。行1和2反映了对于行1的操作， 

参见（14)。如果我们撤销其行2有〜的项的一些列，则如同在 （15) 中那样，行0和 
行2组成撞下的阵列。 从行々 进行到行 A + 1的所述方法，恰是正文中确定类的算 
法。 


4.( a ) 对图表的大小用归纳法，利用一个例子分析，并首先考虑对于行1的影 
响，然后考虑对于由行1撞下来的元素序列的影响。 （ b ) 可允许的交换可以模拟算 
法 I 的操作，且把图表表示成在这个算法之前和之后的一个规范排列。例如，通过 
一 个可允许的交换序列（参考 (4) 和 （5)), 我们可以把 


17 11 4 13 14 2 6 10 15 1 3 5 9 12 16 8 

变换成为 

17 11 13 4 10 14 2 6 9 15 1 3 5 8 12 16 

5. 可允许的交换是左右对称的，而且当颠倒插入次序时， P 的规范排列显然地 
成为 P T 0 

6. 设共有 z 类； 这些类中恰有 A 个有奇数个元素，因为一个类中的元素的形式 


为 
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_ 




( A〆 、）， （九 ㈠ ，九 2 )， …， （ A 、，/%) 

(见 （18) 和（22))。撞下的两行阵列恰有 A 个不动点，这是由于构造它的方法所 
致； 因此，由归纳法，这个图表减去它的头一行后，有个奇数长度的列。所以在 

头一行中的〖个元素导致整个图表中6个奇数长度的列。 

7. 列的数目，即行1的长度，是类的数目（习题2)。行数是 P T 的列数，所以习 

题 5( 或定理 D ) 完成了这个证明。 

8. 对于多于 n 2 个元素，对应的 P 图表必须或者多于”行或者多于〃列。但有 
72 x n 的图表[这一结果最初是在 Composi.MaA 2 (1935) ，463〜470中证明的]。 

9 . 这样的排列同形如（^，^，…，^)的图表的对偶有一 一 对应关系，所以由（34)， 

吸安七 (n 2 ! A(2n - \ y 2n y n) \ 2 = /_^-) 2 

合茶刀 i (2n~l)\ (2n~2)\ …; TT j 1(2” — 1)(2” - 2) 2 … _ 1 广 — 1 … l 1 J 。 

对于这个问题，存在这样一个简单公式，真是惊人。我们也可以计算没有长于 w 的递 
增子序列和没有长于 n 的递减子序列的 U ，2, …， m / z 丨的排列数。 

10. 我们归纳地证明在步骤 S 3 中，和匕 ( s —1) 都小于和 Pr ( s +1)。 

11. 我们当然也需要知道原来曾是的元素。然后有可能利用颇类似于算法 
S 的一个算法，来进行恢复。 





，即总共的遍历距离。 


极小值是习题 1.2.4-41 的序列1，2,2,3,3,3,4,4,4，^"的头77项 之和； 这个和近似 


于 /_ n 3/2 。 （按照习题29,在72个元素上的几乎所有图表都相当接近这个下限， 
所以平均次数是 0 U 3/2 ))。 

13.假设排列的元素是|1，2,…，/2丨，因而〜=1;并且假设 a 】=2。 情况 l ， j < i 。 

则1撞下2,所以对应于〜的图表的行1是 P s 的行1;而且撞下的 

排列除了它的最小元素2外，是以前被撞下的排列，所以我们可以对”用归纳法。 
情况2，） > z 。 对 P T 应用情况1，并利用习题5及 （ P T ) S = ( P S ) T 这一事实。 

15.如同在 (37) 中那样，例中的排列对应于图表 



因此此数为 /( Z ， m ， 72 ) = (Z + m + ”）！ (I - m +1)(/ - n +2 )(m - n + 1)1(1 

+ 2)! (m + 1) ! (72) ! ，当然，假设 

16. 由定理 H ，80080。 

17. 由于 g 对诸： C 是反对称的，当 A = A 时它为0,所以对于所有的 i 〈 j 它可 

以被 A - %所整除 D 因此 g ■(: Ci ，…，，…， A 53；) △(工 i ，…，；）。这里 

h 必须是总次数为1的对 A ，… ， x „ ，: y 齐次的，而且对于：^，…，^是对称的；所以 
对于仅仅依赖于 w 的某个…， i „;： y ) =+…+ a ) +知。我们通过 
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置 


: y 


0可以计算 




▲ y 求偏微商，然后置 : y 


0可以计算6。我们有 


3 






△(A ， 





y 


，工 n ) 


3 






△ (ii ， 




，工 72 ) 




X 


， ^ 〉 v 


j 和 


X ； 



最后 


2 2 ( 々 /(a 


X 


,)) 


S S - Xj 



x 




X 


X 


『)） 




J<i 


n 


2 


18. 它必须是△(: c ! ，…， ) • ( 6。 + b x y + 


# ■ » 


+ 6 w y ")， 其中 每个心 是诸工的次 


数为 m 々的齐次对称多项式。我们有 


k ! ^ dy k 


△ (ii ， 


• # 声 y * 

J j 



: y ， … y ^ n )\ 




， … ， jOXI fIT 


X 


X 


对于不同下标， 


参#參 


， jk # i 的所有 


n - 1 

k 


种选择进行求和。现在在~ 


S 


X? 


n 


^ - X ；)中，我们可以组合那些有一个给定的下标集合 U ，/、 ，…，^丨的々 



项的组；例如，当是 


2时，我们组合形如 a m I (a — b)(a — c ) + b m / (b — a ) (b — c ) + 


c m l ( c - a )( c - 6) 的三项的集合。每个这样的组的和，由习题 1.2.3- 33,是 [z 


m ^ k 


1/(1 


X;Z ) ( 1 ^ X , Z ) … （1- U )。 我们因此求得 


k 


b k 


S 


n — 


k 



1 ~ i 


X) 5 ( 夕 1，…， a ) 


其中…，巧）是对于不同的下标 U ，…， U ， …， n | ，由形如的所有 

1 ;■ 

不同项所组成的单项对称 函数； 而内部的和是对于把 m ~ k 分成恰好』个部分的所 
有分划进行的， S 卩 — + m +九= m -々。（这个结果是作者同 E . A . 


Bender 


起于1969得到的）。 


当 m = 2时答案是 s (2) +(72 


1)^(1)^ 



n 


3 


: y 


△(工1， 


« • 0 




); 对于 


m 



我们得到 5 ( 3 ) + ((；7-1)5(2) 



s ( l ， l))：y 



n — 1 
2 


⑴: y 



n 

4 


y 


△ ( ， 


# ■ # 


oc n ); 等等。 


另 


个表达式，作为 


n 


k 


z 



n - \ 


k 



e \ z 


表 + i 



n — 2 


k 



eiz 


々 +2 


«# # 


/( 1 _ Z 十 ~ 之 2 — 


參 《 # 


中 2： 7 " 的系数给出 h ， 其中 q 


Si 


^ z j … 


… JC，- 


是一 ^ 个初等对称函数。乘以 


/并对 A 进行求和即给出答案，它是 


(1 



Z 


yz 


(y - 


(1 - 


工 1))… （1 



z(y - x n )) 


zx 


1)*"(1 - 


zx 


J 


- 1 △(工 1 


，工 J 


中 


Z 


n 的系数 Q 

19.设转置图表的形状是（<，^， 


5 n r ) ;答案是 
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习题答案 



其中 ；z = Sn /。 （利用关系式 Sk z = |(n + S /〗）， 这个公式可以被表达成 


不大对称的形式）。 

注意： W.Feit[Proc.Anier.Mat/i.Soc，4 ( 1953 ) , 740〜744 ] 证明，把整数 U，2, 
*** y n I放置到作为两个图表形状 （ ，…， ) \ ( G ，…， L )之“差”的一个数组中，其 
中 O ^ L^rij 和72 = Yj ( n } - lj ) ，其方式个数为 w ! det(l/(( ^ ~ j ) ~ (li ~ i )) \) o 

20. 在定理 H 之后的讨论中靠不住的论证，实际上对于这一情况是正确的（对 
应的概率都是独立的）。 

注 意：如 果我们考虑对节点进行标号的所有〃！种方式，这里所考虑的标号是 
没有“反序”的那些。当树只不过是一条通路时这一特殊情况下，排列中的反序和树 

标号中的反序相同。参见 A. Bj6rner 和 M.L.Wachs，/. Combinatorial Theory A52 
(1989)，165〜187。 

21 . [ Michigan Math • J ■ 1 (1952) ， 81 〜 88] 设 〆"，〜）= (〜 + — + 〜）！ 

A( n x ，•- - , n m )1 n l ! ••- n m ! a ( 〜 ，…， ) ，其中 。（: r! ，…，: r„ ) = + 

x ; )o 为证明 gUi ，…， n w ) 是填充移位图表的方式个数，我们必须证明 
L) =笑（〜_ 1，…，^) +…+ gUi, _ 1)。对应于习题17的这个恒等式是 

+ yyx n )! a { x x + y r - , x n ) + - ' + y ) la ( x l 9 ''^ x n + y ) 

=(A + … + x n ) A( t x n )l a ( xi ，…，: c„) ，同 3/ 无关；因为如果像在习题 17 中 

那样计算微商，贝I」我们求得 ~ x 2 { ) + IxjX - Jix ] ~ x 2 j ) = 0 o 

22 . 假设 m = 7V, 必要时把一些 0 加到这个图 形上； 如果 772>iV *n w >0, 则方 


式数显然为0。当771 = ]\/时，这个答案是 


det 


/ ?ii + m — 1 


I ri2 七 m - 2\ 




m 


- 1 


V 


m 


- 1 


/ ni + m — 1 


0 


/n 2 + m - 1 \ 




0 


f 





证明我们可以假定 72^=0, 因为如果 n w >0 则这个阵列的头 Tim 列的第 i 行 
必然填的是 h 而且我们可以考虑剩下的图形（以-〜，通过对 m 用 


归纳法，方式数成为 



n 2 ^ k x ^ n x 

魯 

m 

m 

n ^zk , , 

m m — 1 


det 




/k\ + m 

V 0 




2 





+ 772 —3 


0 
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其中 nrk 】 表示在行_;中诸 m 的个数。对于每个~的求和可以独立地进行，由此 
得 


Ui^rm — X 


712 + 771—2 


n 2 ^ 771 - 2 


m —3 


n 


m—\ 



n 


m 


m — 1 


m - 1 


m 


m — 1 


m - 1 


m — 1 


det 


rii + m — 1 


n 2 ~^ m —2\ / n 2 + m - 2 


723 + m — 3 


n m-\ 





即是所求的答案，因为 


n m =0 


通过行运算，这个答案可以转化为 


monde 行列式，同时给出公式 △ ( 72 



m - 1 , n 2 + m — 2,… 


m 


一个 Vander - 
— 1) ! (m — 


2 )! 


參蠡參 


0!。[这一习题的答案，同群论中一个等价的问题相联系，它出现在 D . E . Lit 


tie wood 的 Theory o / Group Characters 牛津， 1940)，189 中 o ] 


23. [Journalde Math .(3)7 (1881)，167 


184.] (这是对于长度为 2 的所有路 


段，习题 5.1.3-8 的 


种特殊情况，除开最后一个路段可能有长度 1 外。）当 n > 2 时， 


元素〃必出现在一行的最右边的位置之 一上； 一旦已经把它放? 
框中，我们便有种方式来完成这一工作。设 


旦已经把它放到第々行最右边的 


h ( z ) 


^A 2n . l z 2n ~ l K2n - 1 ) 






2 


( g ( z ) - g (- z )) 


则 


h ( z ) g(z 


S 


n 


八2是- lAn -2 々十1之 


J ^ A n + 1 z n ln \) - 1 


\2 ,k — 1 


n ^\ 


g ( z ) - 1 

以代替 z 并且相加，得到 h ( z ) 2 

( z ) - h ( z ) , 我们有 h ( z ) k ( z ) = k 


h " ( z ) — 1 ; 因此， 


tan 2 : 


S . k ( z ) 


g 


k " ( z ) ; 因此 k ( z ) 


sec z g ( z ) 




sec 2 ： + tan z 


tan + 含 tt 。因此系数 A 2 „ 是欧拉数 | E 2 ” I ; 系数 A 2 ”_# 正切数 T 2 „ _ a 


- iy ^ V(V ~ l ) B 2 n K 2 n 


o 


这些数的表出现于 Math . Comp . 21 (1967),663 


688 中。这个序列以 （ A ^ A ^ A : ，…) 




(1,1,1,2,5,16,61,272,1385,7936, 


■ 41 


)开 


始。计算正切数和欧拉数最容易的方法大概是构造 


角数组 
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习题答案 


1 

0 1 
1 1 0 
0 12 2 

5 5 4 2 0 

0 5 10 14 16 16 

61 61 56 46 32 16 0 

其中部分和是交替地从左到右和从右到左形成的 [ A . J . Kemp n e r ，： T6 / i 0 ] c U Math .]. 
37 (1933),348 〜349]。 

25. —般地说，如果是没有长度> A 的循环的丨1，2,…， 刹上的 排列的个数, 

则 S u Tlk z n / n \ = exp ( z + z 2 /2 + …+ 这可以通过 exp ( z ) X … X exp ( z k I k ) 來 

证明，并且得到 

S l / P 1 ；1 !2^- 2 !*..)； 

也可参见习题 1.3.2-21。 类似地， exp (2< s // s ) 是对于这样的排列的生成函数，这 

些排列的循环的长度全都是一个给定集合 S 的元素。 

26. 由伽马函数积分，从 0 到 ⑴的的 积分是 n “ + 1 )/ 4 r(U + 1 )/ 2 )/ 2 ( 〃 3)/2 (见习 

题1.2.5-20,〖= 2 x 2 //^) o 所以从-⑺到⑺，当 z 为奇数时我们得到0,否则 

n u + 1) l 4 /^ rt \ / 2 (3 ， + 1 )/ 2 (" 2)!o 

27. ( a ) 如果/^<〜 + 1 和~<匕. + 1 ，则条件 z ‘< Qr 2 c z + 1 <; + l 是不可能的。如果 
r > r i + 1 和 Ci ^ c i + 1 ，我们肯定不能有 i + l ^ Q rc ^io ( b ) 通过对于〜的图 

i i ^ I 

表中的行数用归纳法证明，〜 < 化 + 1 意味着 (: ,<q + 1 ，且意味着 Ci ^ C l + lo 
(考虑行 1 和“撞下”的序列。 （ c ) 这从定理 D ( c ) 得出。 

28 .这一结果是 A . M.Vershik 和 S . V . Kerov 给出的，见 Doid . Akad . Nauk SSSR 
233 (1977),1024 〜 1028, 也可见 B . F . Logan 和 L . A . Shepp , Ac / vances in Math . 26 
(1977),206 〜 222。 [ J . Baik , P . Deift 及 K . Johansson ， AMM . 12 (1999) , 1119 〜 1178 

证明了标准离差是 0 < n 1 / 6 ] ; 而且，长度小于 2 /^ + M 1 / 6 的概率趋近 exp ( - I T (^ 

— Z ) w 2 (: c ) dx )， 其中 u \ x ) =2 u 3 ( x ) + xu ( x )， 且当 x — 00 时 w (: c ) 近似于函数 A : 

( x ) o ] 

29. ( j )| z ! 是长度为 Z 的递增子序列的平均个数。（由习题8和29,最大的递 

增子序列有长度> 6 士或< e 的概率为 O ( 1 / v^n )) ； [ J - D . Dixon , Discrete 
Math . 12 (1975) 139 〜 142]。 

30. [Discrete Math . 2 (1972) ， 73 〜 94 ;Marc van Leeuwen ， Eleetronic J . Combina ¬ 
torics 3,2(1996) 论文 # R 15 已经给岀了一个简化了的证明。] 

31 - x n = < 2 匕„/ 2 」，其中 a o = 1 > = 2， a „ = 2 a n - \ + (2 n — 2 ) _ 2 ; 2 a n z n In \ = 

exp (2 z + z 2 ) = ( 2 t n z n In ! ) 2 ; 对于偶数的 n ，工„〜 exp ( -^nlnn - + \Tn ~ ^ ~ 


9 
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5丄4 小节 


冬 In 2) 。 [参见 E . Lucas,Theorie des Nombres (1891) ， 217 〜 223。 

2 / 

32 .设 I 2 ^ t j ^/冗。则 7n 0 = mj = 1 ，且如果我们进行分部积 

J — CO 

分， m „ + 1 ~ m „ = nm n -i 0 所以由 (40) ，。 


33 .真的；它是 detf ^ = ； / 1 ) [Mitchell 在 Amer . J . Math 4 (1881) ， 341 〜 344中 

， v > - y 

证明，它是现在称为一个 Schur (舒尔）函数的某个对称函数的展开中的项数。确实， 
如果 0 < A 〈… < ，它是 S „ „( 1 1 ，： 1 ： 2 ，〜，:?: 771 )中的项数，其中 n x = a m - m 9 

1 2 m 


^2 = a 


m 


-i _ ( 


m 


-1)， 


n 


m 


a 


- 1 


o 


这个舒尔函数是形状为 （^ ，…，的所有 


推广的图表之和，且在图表中的元素是对于所有的 h 作为 A 的乘积丨1，…，772丨中 Q 
数，而推广的图表和通常的图表类似，但在行中允许有相同的元素。在这个定乂中， 

我们允许参数7^为 0 。例如， 3210(工1，工2，工3) _ 00 \ JC ^ JCi 工 3 + 工 1 工 2 + OC ^ OC ^ OC ^ 





X \ x \ 



x \ xo , + X 2 x \ ，这是由于推广的图表 


11 11 12 12 13 13 22 23 
2 , 3 , 2 , 3 , 2 , 3 , 3 , 3 


所 


致。这样的图表的个数是△(1，3,5)仏(1，2,3) = 8 。把算法 I 和 D 推广到推广的图 
表 [Pacific J . Math . ， 34 (1970) ，709〜 727] ，我们可以得到著名的恒等式 



m n 

nn 

i = 1 7 = 1 


1 

1 — 


m 7i 

，…， x w ) S A T (: yi ，…，: yj = XT IX (1 + x^j ) 

A / ~ 1 7 = 1 

的组合证明。这里的求和是对于所有可能的形状; V 进行的，而 X T 表示转置的形状。 

这些恒等式首先是由 D . E . Littlewood 发现的， Proc . London . Math . Soc . (2) 40 
(1936),40 〜 70,定理 V] 0 

注意 ：例如 ，由此得出，连续的二项式系数的任何乘积••卜: J 可 

\k / \ k } \ k / 

由… P 所整除，因为这个比是 Ma + Z， …， a + l ，< 2 ，々_ lr "， l ， 
\ ki \ k i \ k I 

0) M ( Z ，“.， l ,0 )o △( Z ，."，1,0) = ( Z -1)! … 1! 0! 的值有时称为“超阶乘”。 

34 .— 个钩的长度也是从钩的左下单元（: r , 30到它的右上单元（/，/)的任何 
弯曲的通路的长度。我们证明一个更强的结果 ：如果 有一个长度为 a + b 的钩，则 
有一个长度为 a 的钩或者长度为 6 的钩。考虑单元 （ x ，： y ) = (:^，: vi ) ， （ A ，： V2 ) ，…， 

( Ah , % + = (/，/)，它们紧靠这个形状的下部。如果〜 + 1 = ^，则单元（^， 

: yi ) 有长度为 < 2 的一个钩；否则（: c a + 1 ，: y a + 6 ) 有一个长度为 6 的钩。[参考 Japanese 
J • Math , 17 (1940),165-184,411~423 o 中山正是在排列群的研究中，最先考虑钩 

的人，而且他差不多接近于发现定理 H ]。 
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习题答案 


35.当 知 增加时，步骤 G 3- G 5 的执行恰好使户数组的~个元素减1，因为这个 
算法沿着从到九„ .的一 条弯曲的通路进行。这些步骤的下一个执行或者由 j 的 

一个更大的值开始，或者在高于或等于以前转弯处停止。因此^数组从左到右和由 
底向上被填满。为了颠倒这个过程，我们从右向左和由顶向下 进行： 

HI •[初始化]对于 和 ，置 p t j —0 。 然后置 1 和 。 

H 2 .[求非0的单元]如果知 >0,转到步骤 H 3 继续。否则如果 2 _<<，则 z 加 

1 并重复这个步骤。否则如果）> 1 ，则）减 1 ，置 i — 1 ，并重复这个步骤。 

否则停止“数组现在为 0 )。 

H 3 .[减少 g ，为转弯做准备]%减1，并置 l — i，k — n t 。 

H 4 .[下移或左移]如果/<<和心>以 / + 1 ^，则/加1并返回 H 4。 否则如果 

减1并返回 H 4。 否则返回 H 2。■ 


对于一个给定的 J 头一个转弯的通路通过增加结束。因为 
九 ; ,，意味着 p njJ >0 o 对于列 7 的每个随继的通路停留-以前的通路之下或等于以 
前 ; 的通路，所^它也在/ V ,处结束。在这途中遇到的不相等表示这个算法对其它的 

r 

进行反序 L /. Co/nbinatoWd Theory All (1976) ,216 -221 ] 0 

36. ( a ) 所述的系数是 m = 的解的个数，所以我们可以应用上一道题 

的结果。 （ b ) 如果化，… ，〜 是任何正整数，我们可以通 过对々 用归纳法证明 

' - z)(l - - z a k) = [ m I ai … a k + 0(m k ~ l ) 

\ k f 


( rn \ ^ 

, ln\ 

n - 1 / 


+ 0 ( m ” _ 2 )。 这也是撕二/^ +…+九分划 成不同 部分/ ? i > … >九〉 0 的渐近个 

数（参见习题 5. 1.1-16)。所以当有一个给定的 7 Z 个单元形状的 N 个图表时，颠倒 


的平面分划的个数渐近地是 N 



m n _ 2 ) 0 由部分 （ a )， 这也是 




^Studies in Applied Math . 50 (1971 )，167 〜 188 ， 259 〜 


279 0 J 

37. 在一个矩形中的平面分划等价于颠倒的平面分划，所以钩的长度告诉我们 
在一个 rx c 的矩形中的生成函数 + f 0 。设定 r ， c — oo 产生漂亮 

的答案 1/(1 - z)(l - z 2 ) 2 (l - z 3 ) 3 •** 0 [ MacMahon 原来在 Philosophical Transac ¬ 
tions A 211 (1912),75 〜110,345〜373中的推导，极其复杂。头一个相当简单的证 
明是由 Leonard Carlitz 发现的 ， Acta Arithmetica 13 (1967) ，29〜47。 ] 

38. U ) 当々 = Z = 1 时，概率是 l / n ; 否则对々+ Z 用归纳法，它是 


nP(I \ [ io \ J ) + nP ( I， J \ liot ) 


nd; 


Vo 










d ： 

0 


b 
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5.1.4 小节 


( b ) 对所有 j 和 j 求和给出 

n-Ui + 心）… (1 + ^ (a-l) b )(1 + d - a i ) … (1 + d a ( 6 - 1 )) 

容易看出，它等于/(了\ \ a , b \) lf ( T ) 0 

( c ) 对所有的角求和产生1，因为每一条通路都在一个角落处结束。因此 2/( 了 
\丨（《，幻丨）=/(了），而且通过对^用归纳法证明了定理 H 。 而且，如果我们把” 
放在随机通路的角落单元处并在剩下的 n - 1个单元上重复这一过程，我们以1// 

( 了）的概率得到每个图表 。 [Advances in Math . 31 (1979) ，104〜 109 o ] 

39. ( a ) Qu ， …， Q lr2 将是幻…乂，即原来的排列…的反序表。（参见 5. 


1.1 节 ）。 

03)0 11 ，‘"，0 711 是习题5.1.1-7的负的反序表（- GVW - CJ 。 
( c ) 这个条件显然为步骤 P 3 所保持。 


(d) 


/I 

\2 




这个例子表 


明，如果不注视数组 P 我们不能向后运行步骤 P 3。 


( e ) 


12 

10 

8 

14 

15 

11 

9 

13 

7 

1 



6 

4 

5 




16 

3 






2 


( f ) 下列算法是正确的，但并不那么明显。 

Q 1. [对 （ i 进行循环]以字典次序对数组的所有单元（〗，_；)实施步骤 Q 2 和 

Q 3。 （即是在每行中从顶向下，和从左到右）；然后停止。 

Q 2 .[调整 Q ] 通过下列规则求出“头一个候选者” （ r ， s )。 然后对于 

置 Q:u + i )— _ 1。 

Q 3 .[在（/•，_；)处拆开 P ] 置 K — P rs 。 然后执行下列操作直到 = ( f ，_；_) 为 

止 ：如果 P ( r _ 1)5 > P r ( rl ) ，置^ — 和厂―1;否则置 Prs ^ Pr ( s - l ) 

和5^5 - I , 最后置 — K 。 ■ 

在步骤 Q2 中，当 s > j 以及仏<0 且 r = i - Qh 时，单元 （r J ) 是一个候选者。 

设： T 是提示的有向树。算法 Q 的基本不变量之一是每当 （ r ， s ) 是在步骤 Q2 中的 
一个候选者时，在了中将有从 （ r ^) 到的一条通路。该通路的颠倒可以通过 
字母 D 、 Q 和 R 的一个序列来进行编码。其意义是，我们在（〗，））处开始，然后向下 
( D ) 或者向右 ( R ) 或者停止 ( Q )。 头一个候选者是在字母表的次序下字典次序的头 

一个； 直观地说，它就是具有“最左和最下的”通路的候选者。 

例如，在部分 （ e ) 的例子中当 （ f ， j ) = (1,1) 时的候选者是 （3,1)，（4,2)，（2,3)， 

(2, 4) 和 （ 1，6 )。它们分别的编码是 DDQ , DDDRQ , RDRQ , RDRRQ , 以及 

RRRRRQ ; 所以头一个是 (4,2)。 
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习题答案 


算法 P 是在 Funkts . Analiz i Ego Priloz . 26 ， 3 (1992)，80 〜 82 中不加证明地指 
出的一个构造的稍微简化了的版本。其正确性证明是不平凡的 Novell ! , I . 

Pak 和 A . V . Stoyanovskii ^JDisc . Math , and Theoretical Comp . Sci . 1 (1997) ,53 〜 67 

上给出了一个证明。 

40. H . Rost yZeitschri ft fur Wahrscheinlich-keitstheorie und verwandte Gebiete ,58 

(1981)，4 卜53。 

41. ( 由 R.W. Floyd 给出的解）一个删去-插入操作实质上仅仅移 动化。 在这样 

的操作的一个序列中，未被移动的元素保持它们的相对次序。因此如果可以通过々 
个删去-插入来对排序，则它有长度为 n ~ k 的一个递增的子 序列； 而且反之亦 

然。因此， dis (7 T ) = 72-( 7 T 的最长的递增子序列的长度 ）= ”十（定理 A 中行1的长 

度 ）。 

M . L . Fredman 已经证明为计算这个长度所需要的极小比较次数是^ lg n - n 
lg lg n + 0( n ) [Discrete Math . 11 (1975)，29 〜 35] 。 

42 •构造一个多重图，对于0<々<72，它有顶点丨0心1[，1^，一，72[，：^，（?2 + 

和边 々 r —(々十 1) l ; 还包括边 Or —1 r ，] l 一 ，1 尺一 ，2 尺一 4 l , 4^一 5 l , 5^一 

h ，3 R -*6 K ，6 i — 它们定义了裂 开炽体 的“粘合”。精确地说，两个边接触每个顶 

点，因此连接的成分是循环的：（0尺 1 L 7 l 6 r 4 l 2 只 3 l 5尺 6 l 8 l 7^)(1^ 2 L )(4 只 

5 l ) 0 任何触发操作都使循环数改变 _ 1 ， 0 或 + 1 。因此我们至少需要五个触发来 

达到八个循环（0尺1[) ( l i ? 2 L )*** (7 r 8 l ) 0 [ J . Kececioglu 和 D . Sankoff,Algorithmica 

13 (1995),180 〜 210。] 

头一步必须打破粘合 — L ， 因为在线性安排中当我们打破有相同的自左到 
右的两个粘合时，我们就得不到新循环。在一个触发之后，这保持五个可能性，即 

g ? g 6 g 3 g 5 g 4 g 2 g ^ ^ gl g \ g 2 g 4 g 5 g 3 g 6^ gl g I g 2 g 6 g 3 W 尽2尽 4 尽 5 尽6 W 以及 

心;再有四个触发就足以把除了第二个之外的所有安排排序。 

顺便说， gr " g 7 有2 ? -7! =645120个不同的可能的安排，从吸烟的次序来说其 

中有179904其距离是<5的。 

[ S . Hannenhalii 和 P • Pevzher JACM 46 ( 1 999 )，1 〜27给出 了通过颠倒顺序来 

找出对任何带符号的排列进行排序最好方法的一个有效算法，而且，由 Kaplam 、 
Sh 識 ir 和 Tar 〗 in，SJCOMP 29 ( 1999)，880 〜 892作了改进以在 OU 2 ) 的时间内运 

行]。 

43.通过带符号的排列71245%来表示像 gigigigAgsg ^ ge 这样一个安排。如 

果有一个负的元素，比如说 f 存在而不是 PT ， 一 个触发将建立 2 循环（（是 - 
l ) Ad 。 类似地，如果 I 存在而不是 PI ， 一个触发建立+ 1 ) 0 。而且如果 

所有这特殊类型的触发删去所有负的元素，则单个触发就建立两个 2 循环。如果不 
出现有负的元素而且这个排列未排序，某个触发将保持循环的个数。因此如果给定 
的排列有一个负元素，我们可以在个触发中排序，否则则在+ 1 个触发中排 
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5.2 节 


序。 

当 n 是偶数时，排列 n ( n - l ) …1要求72 + 1个触发，因为在头一个触发之后 
它有一个循环。当 rz >3是奇数时，通过类似的论证排列 213 n ( n ~ l ) …4要求 ？2 + 
1 个触发。 

44.设 q 是在前面答案中的多重图中长度为2々的循环的个数。可以找出^ 

的平均值的上限如下：可能的 2 A 循环的总数是2穴 n + 1)~(2々），因为我们可以以 
(72 + 1# 种方法从… U ， …，叫 -U + 1) J 中选择々个不同边的序列，并且以公 

种方法来对它们定 方向； 这计算每个循环 2 A 次，包括像 （ 或 

) 或 ) 这样不可能情况。当 k^：n 时，每个 

可能的2 々循 环恰好出现在2” 〃（72-；0!个带符号的排列中。例如，考虑1 = 5,72 
= 9的情况以及循环这个循环在多重图中出现当且仅 

当带符号的排列以？开始，并且包$子_串豆1 心和乏5 _它们的 颠倒； 通过找出 il ，2, 
3,6|的所有带符号的排列，并且以来代替1，以乏5来代替2,我们得到所有的 

解。因此 £ 4 < 1 /( 2 々） 2 是（” + 1)々—々（72-々）！ /2 n n \ = j(llk + ll(n + l - k )) 0 

由此得出 ， Ec = ^ =l Eck + Ec n + [ < H n + 1。由于 n + 1 _ c 是触发数的下限，我们 
需要 + 它们中的 

[这个证明使用了 V.Bafna 和 P . Pevzner , S/COMP 25 ( 19%)，272〜289的思 

想。他们研究了通过颠倒顺序来对不带符号的排列排序的更困难的问题。在该问 
题中，证实了可以写成为不相交的循环的乘积 （123)(345)(567) …，而且依赖于 rz 是 
偶数还是奇数，而以 U-l n ) 或 U -2 72-1 72) 结尾，是最难排序的。] 

5.2 节 


1 . 是“和 j 可以以任意顺序跑遍的值的集合，可能并行和/或作为 
记录被读入。 

2 . 在这一章开始时给出的定义的意义下，这个排序是 稳定的 ，因为这个算法实 
质上是 对不同 键码对（尺 1 ，1)，（尺 2 ,2),-，（尺^~)按字典顺序进行排序的。（如果 

我们把每个键码想像作通过它在文件中的位置向右边扩充，不出现相等的键码，因 
而这个排序是稳定的）。 

3 .它能排序，但不是以 一^ 种稳定的方式；如果 Kj = K { 且 j < i ，则氏将在排好 
了的顺序中出现在尽 之后， 这个变化也将使程序 C 更慢地运行。 


4.ENT1 

N 

1 

LD2 

COUNT ,1 

N 

LDA 

INPUT ，1 

N 

STA 

OUTPUT +1,2 

N 

DEC1 

1 

N 

J1P 

并 一 4 

N 
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题答案 


5. 运行时间减少 A + 1- N - B 个单位，而且这在绝大多数情况下是个改进。 

6 . a = 0，幻= 9。 

在 01 之后， 0011 町 = 0 0 0 0 0 0 0 0 0 0 

在 D2 之后， COUNT = 2 2 1 0 1 3 3 2 1 1 

在 D4 之后， COUNT = 2 4 5 5 6 9 12 14 15 16 

在 D5 期间， COUNT = 2 3 5 5 5 8 9 12 15 16 j = 8 

OUTPUT . .1G … 4A.5L 6A 6T 6 工 70 7N. 

在 D5 之后， OUTPUT=OC 00 IN 1G 2R 4A 5T 5U 5L 6A 6T 6 工 

70 7N 8S 9 

7 . 是，注意在步骤 D6 中 C0UNT[iC ; ] 被减值，而且 J 减值。 

8 . 它能排序，但不是以一种稳定的方式（参见习题7)。 

9. 设 M = r - w ; 假定 M ， | t ; | 能装入两个字节中。 LOCC^^^INPUT + ^LOC 

(COUNT[ j ] ) = L0UNT + j ; L 0 C( S)) 三 OUTPUT + j ; rll 三 i ; rI2E j ; r I3 三 i - i 或 rI3 三 

K j0 

M EQU V _ U 

KEY EQU 0:2 

1H ENN3 M 

STZ COUNT + V ， 3 

INC3 1 

J3NP * - 2 

2H ENT2 N 

3H LD3 INPUT,2(KEY) 


( 在字节 3:5 中的随从信息 ) 

1 D1 . 清餘 COUNT 

M + l C0UNT[t; - 々 ] — 0 
M + 1 

M + 1 u^i^v 

1 D2 . 对 j 进行循环 

N D3 ‘ COUNT[ Kj ] 增值 



LDA 

COUNT, 3 


INCA 

1 


STA 

COUNT, 3 


DEC2 

1 


J2P 

3B 


ENN3 

M- 1 


LDA 

COUNT + U 

4H 

ADD 

COUNT 十 V, 3 


STA 

COUNT + V ， 3 


工 NC3 

1 


J3NP 

4B 

5H 

ENT2 

N 

6H 

LD3 

工 NPUT ， 2( ； KEY) 


LD1 

COUNT,3 


LDA 

INPUT,2 


N 

N 

N 

N 

N N>j>0 

1 D4 .累计 

1 rACCOUNT [ i -1] 

M COUNT[i - 1]+COUNT [i \ 

M —C0UNT[i: 

M 

M u^ ： i^：v 

1 D5 .对 j 进行循环 

N D6 .输出 Rj 

N i—COUNT [&: 

N vA^~ R : 
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5.2 节 


STA 

OUTPUT,1 

N 

S^iA 

DEC1 

1 

N 


ST1 

COUNT, 3 

N 

COUNT [Kj]^i 1 

DEC2 

1 

N 


J2P 

6B 

N 

N>/>0 | 


运行时间是 （10 M + 22 N + 10) w 。 

10 . 为了避免使用 N 个额外“标志”位[见 1.3.3 小节和 Cybernetics 1(1965)， 
95 ]，并保持运行时间实质上同 iV 成比例，我们可以使用下列以排列的循环结构为 

基础的 算法： 

P1. [对 i 进行循环]对于 l < f < N 做步骤 P 2; 然后结束这个算法。 

P2.[p(t) = i 吗？]如果 p ⑴\纟，则进行步骤 P 3 到 P 5。 

P3 •[开始循环]置 t ^ R { 

P4 •[ 修正巧 ]置 k — p(D ， R 广 R k ， p(])—j ，】 — k 。 如果 p(j)ki 则重复本 

步骤。 

P5 •[结束循环 ]置 R 广 t ， p(j)—j 。 i 

这个算法改变^(0 ,因为排序的应用允许我们假定存储在内存中。另一 
方面，存在像矩阵转置这样一些应用，其中/>(0是有待计算（为了节省内存空间而 
不造表）的 i 的函数。在这样一种情况下，我们可以使用下列的方法，对于 
实施步骤 B1 到 B 3: 


B1 •置 k ^— p ( i ) 0 

B2 .如果则置 6 — fU ) 并重复这个步骤。 

B3 .如果，则什么也 不做； 但如果 A = i (这意味着；是在它的循环中最小 

的）则我们把包含 i 的循环排列如 下：置 尺，然后当 p ( k ) ki 时，重复地 

置 R k — R p ( k)MR A — pU ); 最后 Rk — t 0 I 


这个算法类似于; I . Boothroyd [ Comp . J . 10 (1967) ，310]的过程，但它要求较少 
的数据移动； （ I . D . G . Macleod ) [Austraiian Comp . J . 2 (1970) ， 16 〜 19。] 已经提出某 
些改进。对于随机排列，习题 1.3.3-14 中的分析表明，步骤 B 2 平均要实施 （ N + 1) 
H n _ N 步。请见习题 1.3.3-12 的答案中的参考文献。例如，如果习题4中的重新 

安排是通过 OUTPUT = INPUT 来完成的话，则类似的算法可被设计成以（尺 1 ， … ， R n ) 


来代替（化⑴，…，〜⑼）。 

11 .命 rll=i ; rl 2 =j ; rl 3= k ; rX = t 0 

1H ENT1 N 

2H CMP1 P,1 

JE 8F 

3H LDX INPUT,1 


1 

N 

N 

A-B 


PI •对 i 进行循环 
P 2. P ( i)=i 吗? 

如果 p ( i ) = i 则转移 
P 3 .开始循环， t—Ri 
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习题答案 



ENT2 

0,1 

A - B 

4H 

TiD3 

P，2 

N-A 


LDA 

工 NPUT ， 3 

N-A 


STA 

工 NPUT, 2 

N-A 


ST2 

P，2 

N-A 


ENT2 

0,3 

N-A 


CMP1 

P，2 

N-A 


JNE 

4B 

N-A 

5H 

STX 

工 NPUT, 2 

A . ~ B 


ST2 

P,2 

A — B 

8H 

DEC1 

1 

N 


J1P 

2B 

N 


P 4 .修正 R iQ k — p ( j ) 

R 广 Rk 
j^~k 

如果 p ( j ) k i 则重复 
P 5 .结束循环。 R 广 t 

N>i>l I 


运行时间是（17〜-5炱-7£ + 1 )^这里羞是排列 p ( l )- p ( iV ) 中的循环个数，且 
B 是不动点 （1- 循环）的个数。由等式 1.3.3-(21) 和 1.3. 3-(28，）对于 iV >2, 我们有 

A = (min 1, ave H N , max N , dev \J H N ~ ) ;B = (min 0, ave 1, max TV ， dev 1) 。 

12 . 明显的方法是跑遍这个表列，并 以数々 代替第々个元素的链接，然后在第二 
遍扫描中重新安排诸元素。下列更直接的方法是由 M . D . MacLaren 给出的，如果诸 
记录不太长，它更短和更快。（为方便起见假定对于 l < P <7 V ，0< LINK ( P )< iV ， 这 

里八 e0) o 

Ml •[初始化]置 P — HEAD ，々— 1。 

M 2 .[完成了？]如果 P = A (或者等价地，如果6 = iV + l )， 算法结束。 

M 3 •[确保 P > k ] 如果 P < k ， 置 P — LINK ( P )， 并重复这一步骤。 

M 4 •[交换]交换私和只 [ P ] (假定 LINKU ) 和 LINK ( P ) 在这个过程中也交 

换），然后置 Q ^- LINK ( k ) , LINK ( ^ , P^Q , k^k + 1，并返回步骤 M 2 0 I 

MacLaren 方法有效的一个证明，可以以下列性质的归纳性验证为基础，这个性 
质在步骤 M 2 开始时 成立： 在序列 P , LINK ( P ), LINK ( LINK ( P)),--*,A 中>々的项是 

，…， a N + 1 ^， 这里尺 — 是这些记录所应有的最 

1 N + 1 - A 

后顺序。而且对于有1 ^抓(』）> ; ，使得1：工皿0 )二八意味着 7 >々。 

分析 MacLaren 算法是十分有 趣的； 它的突出性质之一是它可反向运行，即从 
]^工抓(1)，〜，1^1皿(〜）最后的值重新构造链接的原来集合。满足 ）< LINK ( j )< iV 的 
N ! 种可能的输出配置的每一种，恰巧对应于 N ! 种可能的输入配置之一。如果 A 
是步骤 M 3 中 P — KINK ( P ) 的次数，则 N - A 是在这算法结束处使得 LINK ( j )= j 的 ; 
的 个数; 这种情况当且仅当 j 是它循环中最大者时才 出现； 因此 iV - A 是排列中的 

循环个数，而且 A = (min 0 , ave N - H N , max N _ 1) 。 

参考文献： M . D . MacLaren ,JACM 13 (1966) , 404 〜 411; D . Gries 和 J . F . Prins , 
Science of Computer Programming 8 (1987) ， 139 〜145。 

• 584 • 




5.2.1 小节 


13.D5' •置 r — N 。 

D6' .如果 r = 0, 则停止。否则如果 COUNT[i<^]< r , 则置 r—r _ 1 并重复这 

一 步骤； 如果 CO _ K r ] = r ，则 COUNT [ K r ] 和 r 都减1，并重复这一步 

骤。否则置 R^R ri J ^COUNT [ K r ] , C0UNT[ K r ]^j -lo 
ITT 置 S — 及 ; ，々一 C0UNT[K ; ] ， C0UNT[K ; ] — 々 -1 ，民 ― P ，尺一 S ， j — 是。然 

后如果 r ，则重复这一 步骤； 如果 j = r , 则置氏― r -1， 并转 
回到 D '6。 I 

为了证明这个过程是正确的，注意在步骤开始处，所有满足 j > r 的不在它们最 
后的安放位置处的记录&都必须 左移； 当 r = 0 时，不可能有任何这样的记录，因为 

某个东 西必须右移。这个算法是漂亮的，但对于相等的键码不 稳定； 它同定理 5.1. 
2 B 中的 Foata 构造密切相关。 


5.2.1 小节 


1 . 是。相等的元素决不彼此交错地移动。 

2 . 是。但当出现相等的元素时，运行时间将较慢，而排序将不稳定。 

3 . 下列 8 行被猜测为最短的 MIX 排序程序，尽管就速度来说，它是不值得推荐 
的。我们假定数出现在位置 1，…， iV 上（即， INPUT EQU0; 否则需要多一行代码）。 


2H 

LDA 


CMPA 


JLE 


MOVE 


STA 

START 

ENT1 

1H 

DECl 


J1P 




1F 



B 

B 

B 

A 

A 

A + 1 
B + 1 
B + l 


注 意：为 了估计这个程序的运行时间，注意 A 是反序的个数。量 B 是反序表的 
相 当简单的函数，而且(假定在随机顺序下的不同输入）它的生成函数是 

^-'(l + ^)(1 + 之 2 + ^ 2+1 ) x 

(1 + 之 3 + z 3+2 + z 3+2+1 )-**(l + Z N ~ 1 4- Z 2N_3 + …+ z N ( N ' 1)/2 )/ N ! 

B 的平均值是 JV — 1+ 刃八 〆 々_1)(2々 -1)/6=( JV -1)(4 JV 2 + N + 36)/36; 因此这 


个程序的平均运行时间大约是 | n 3 w 。 

4.在习题 5.1.1-7 的意义下，考虑给定的输入排列的反序表 A 比等 
于 j - 1 的的个数少1 ，而 B 是诸马 之和。因此当输人的排列是 N …2 1时 ， B - 
A 和 B 都取极大值；当输入1 2… N 时，两者取极小值，因此当 A =0 5 B =0时可达 


到时间的下限，即 （10 N — 9) w ; 当 A = N - I y B ^ 



时出现极大值，这就是 
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习题答案 


(4.5 N 2 + 2」 iV -6) w 0 

5. 生成函数是 z 1GN — 乘以 9 B -3 A 的生成函数。通过像在上题中那样考虑反 

序表，并回想起反序表中各项是彼此独立的，因此所求的生成函数是 z ， 9 
n i<J<N ((l + / + …+ 之 9 厂 18 + z 9 j - [2 ) lj ) 0 方差成为 2. 25 N 3 + 3. 315 N 2 - 

32.625 N + 36 H N -9 f ^ 2 )。 

6 . 把输入区域当作一个循环表，而且位置 N 同位置1相邻。根据上一次插入 
的元素是落到已排序元素中心的右边还是左边，而分别地从当前的未排序元素段的 
左边或右边来取新的待插入的元素。过后，通常将需要“转动”这个区域，对于某个 
固定的 I 把每个记录顺着这个循环移动々个 位置； 这可像在习题 1.3.3-34 中一样 

有效地完成。 

7. | 〜 j | 的平均值是 



对求和给出 




n + 1 、 

3 ) 



/n + 1\\ 

\ 3 / ) 



1 ) 


顺便提及，所述和的方差可证明等于 [ n > l ](2 n 2 + 7 )(n + l )/45。 

8 .否； 例如，考虑键码2 1111111111。 

9.对于表3, A = 3+ 0 + 2+1 = 6 ，B = 3 +1 + 4+ 21 = 29;在表4中 ， A 二4 + 2十2 
十 0 = 8 ，B = 4 + 3 + 8十10二25;因此程序 D 的运行时间分别为786 w 和734 w 。尽管 
移动的次数已经从41减少到25,但运行的时间不能同程序 S 相匹敌，因为当 N = 
16时，有四次扫描的簿记时间是浪费掉的。当对16个项目排序时仅用两次扫描效 
果 更好； 一个两次扫描的程序 D 大约在 N = 13 时开始胜过程序 S ， 尽管在短时间内 

它们是几乎等同的（而对这样小的 N ， 程序长度也许是重要 的）。 

10■把 “ INC 1 INPUT ; ST 1 0 F (0:2)” 插入行07和行08之间，并把行 10 — 17 改成 


0H 

CMPA 


JGE 

3H 

ENT2 

4H 

LDX 

5H 

STX 


DEC2 


J2NP 


CMPA 


JL 

6H 

STA 


INPUT + N- H,1 
7F 

N- H,1 
INPUT, 2 
INPUT + H,2 
0,4 
6F 

INPUT, 2 
4B 

INPUT + H,2 


NT - S 
NT - S 
NT - S ~ C 

B 

B 

B 

B 

B - A 
B - A 

NT - S ~ C I 


这里纯增了 4 条指令，但却节省了 3( C - 丁）个时间单位，这里 C 是次 
数。在表3和表4中，节省的时间分别近似于87和88;经验表明， C/(NT - S ) 的值 
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当 h s + Jh s ^2 时大约是 0.4, 而当 /i 


S + 


i // i ,^3 时大约是0.3,所以这项改进是值得 


的。（另 




方面，对于程序 S 作类似的改变是不合要求的，因为在该情况下的节省仅 


仅同 logN 成比例，除非已知输入是相当好地排了序的) 

11. I I I I I I I 


0 



12 .把 L 变成为 1 总是使反序数改变± 1 ，依赖于这个变动是在对角线上面还 


是下面而异。 


13 .把权 | i ) I 放到从 （ z ‘， j 


1 ) 到 （ f ， j ) 的线段上。 


14. U ) 在 A 2 „ 的和式中交换 f 和 j /， 并把这两个和式加起来。 （ 6 ) 取这个结果的 


半，我们看到 


A 


2 n 


2 O' - o 



2 n — i — 


o </<； 


n 


E 

i.k^O 



2 i k 


因此 2A 2 p ” 




a lk I (1 - 4z) 


z/(l — 4 z) 2 , 其中 a 


(i- 


2 n - 2 i - k 、 
n — i — k I 

V1 ~ 4z )/2 之 


以上证明是由 Leonard Carlitz 向作者提岀的。另 


个证明可以根据水平和垂 


直权之间的相互作用进行（参见习题 13); 利用习题 5.2.2-16 的答案中的恒等式，并 


令/⑴ 
合推导。 


々，可 得另一 个证明；但是却未发现有关公式 A 。 


lnl 2]2 


n - 2 


的简单的组 


15.对于 n >0 


gn(z) = z n g n . x (z)\ h n { z ) 




g” （ z ) 十 z~ n g n (z) 


n 


n 


gA 


Z 


YjSk(z)g n - k (z) ; h n ( z ) 




^h k (z)h n . k (z) 


k 


k 


命 G(zv y z ) 




2 ngn (z)w n ，我们发现 WzG (w y z)G( ZVZ , 2：) 




GiuJ y z ) ~ lo 从这 


个表示我们可以导出，如果 


1-4 


U ) 


2 

1 一 2 zv — 2 zv — 4 w 


，则我们有 


G ( w ，1 ) 


(1 - t)l (2 xv ) ； G^(zv y l ) 


ll ( wt ) - (1 — t)l (2 w 2 ); G " (w y l ) 




ll (2 t 2 ) 


~ 1/(20 ; G//( w ,1) 


2 l ( wt 3 ) — 2 /( w 2 t ) + (1 - i )/ w 3 ; G " (w y l ) 




2 / 1 4 — l " 3 ; 且 


G 〃（ w ， V ) = 1! t 2 - (1 - 2 w)l t 4 + 10 w 2 11 5 。 此处下边的撇号表 7 K 相对于头 一 个参数 
的微商，而上边的撇号表示相对于第二参数的微商。类似地，由公式 

W (zG (zvz , z ) G ( wjz )) H ( w f z ) = H(zv , 2 ) - 1 

我们导出 

H ’ ( w , 1) = - wlt 4 , H"i w ,1) = - wlt 3 - u ^ lt 4 + 2 wlt 5 + 

(2 w 2 + 20 w^)l t 1 

这里概述的公式的处理原来是用手算的，但今天它可以很容易地由计算机来 
算。原则上，所有分布阶段都可以以这样的方式得到。 
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习题答案 


生成函数也表示了 这里求和对具有 n 十1个节点的所有 

树 进行； 参见习题 2.3.4. 5-5。说明这样一点是有趣的，即 G ( m ， z ) 等于 Fi - wz , 

^^/^(-■^，之琪中卩“，^?): S „> o ^ V 2 / II ^ = i(l - ^);在 FU ， g ) 中 q m z n 的系数 
是把 饥= P \ + …+ p n 如下分划的个数，即使得对于1<7 < n ，巧>九+ 1 + 2,且九 

>0( 参见习题5.1.1-16)。 

16.当 A =2时，显然地对于通过格子图式右上角的通路出现极大值，即是 

\\n\2\ + 1 \ 

I 2 / 

对于一般的/ I ，对应的数是 



n 


， h ) 


( h \ 
\2 ) 


Q 



2 


+ ^\(q + i) 


这里的 g 和 r 在定理 H 中定义 ：因为 具有〜 


Jh 




1+ q(h - i ) + (r ~ z )[ z ^ r ] 对 


h 


于和的排列，使^对排好序的子序列中的每一对之间的反序个数 
极大化。如果我们在 (6) 中以/代替/，便得到极大的移动次数。 


17•有 


71 



2 


个反序的|1，2, 




，2 ；2 | 的惟一^的二有序排列是 n 



1 


n 



2 2 


272 72。递归地利用这一思想，我们得到通过对序列的每个元素加1 

来定义的排列，这里表示把 一 个整数写成为一个 Z 位二进数的操作，然后逆转这 
些数字从左到右的顺序！ 

18.取出一个公共因子并命 h t =4 Njn ; 当 / ifl 时我们要把极小化。 
微商之得到，而且我们求得0 - l ) lg 心= 2 /+1 -2 (z + l ) + lg 所述的 

估计的极小值成为 （1-2 — / )7 r ( 2 t _ . 1_1 ) / ( 2 M ) N 1 + 2 M / ( 2 t _1 )/2 1 ' K H )/(2 f - 1)。当 oo 时它 

迅速地趋于 

当 iV = 1000 时“最优的 ” / i 的典型例子是（也看表 6): 

h 2 ^51 . 64, h l ^6 . 13 , h 0 ~ l ; 

/ i 3 〜 135. 30, h 2 ^22 . 05, h x ^4 .45, h 0 ~ 1； 

/ i 4 义 284.46， / i 3 ^67.23, / i 2 ^16.34, h ^4.03, h 0 = l ； 

/ i 9 〜 9164.74, / i 8 ^12294.05, / i 7 义 7119.55, / i 6 ^2708.95, / i 5 义 835. 50， 


/ i 4 ^232.00, A 3 ^61.13, / i 2 ^15.69, h 产 H h 0 = l o 

19 . 命 g ( n ， h ) = H r _ l + Tj r<J ^ h qKqj + r ) ，这里 g 和 r 在定理 H 中定义；然 
后在 (6) 中以 g 代替/。 

20. ( 把它写岀来比理解它更为困难。）假设一个々有序文件 i ^， …，已经进 
竹了 A 排序，并设 _ ；我们要来证明 + k 。 求 m 使得 w 

/1，2’三2^，且 i + k 夂 V (modulo /1 );并对于 5 = K v + (j - 1)hiyj = K M 十(卜 1)；1 应用定理 
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Lo 于是诸 y 的头 r 个元素 + A ，…，分别 < 诸工 的最后 r 个元素 
+ a ， + & + /l ，…， 仏 + & + & _ 1)A ，其中 r 是使得 u + k + ( r _ lXN 的最大整数。 

21. 如果 xh + yk = x'h + yk , 我们有（:，所以对于某个整数 

Z ， 有 ：£： / = ： C 十从和/二汐—认。令厶）+々々 = 1;于是打=(72//)/1 + (72々）々，所以 

每一个整数72有形如72 = Xh + yk 的惟 一 表示，其中0<工 <々 ， 且72是可生成的当且 

仅当 y ^- Oo 类似地，令 hk — h _ 々 _ 7? = ：£'71 + 3 ;/ 々；于是（>3：十工 / )厶+ (3 ; + 3 ;/ )々 := 九々 
—h ，因此 1 + / =々-1 ( modulo 石） ，因而我们必定有 x + 因此 _y + 

/ = -1 和 y >0 当且仅当/<0。 

这个结果的对称性表明，在所述的形式下，恰有 + U -1 )U -1) 个正整数是不 

可表不的，这是原来由 Sylvester 提出的 [Mathematical Questions f with their Solu¬ 
tions, from the “Educational Times” ， 41 (1884),21 ]。 

22 . 为了避免麻烦的记号，考虑 s = 4, 这代表了一般情况。设以是同余于々 
(modulo 15) 而且可以以 15 ao + 31a x + …的形式表示的最 小数； 于是我们很容易求 
得 

是 =0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 
72^ -0 31 62 63 94 125 126 127 158 189 190 221 252 253 254 

因此 239 = 2 4 (2 4 - 1)- 1 是最大的不可表示的数，而且不可表示的数的总数是 
x 4 — {ni -- 1 + n 2 - 2 + ••• + 72 14 - 14)/15 = (2 + 4 + 4 十 6 + 8 + 8) + 8 + 

(10 + 12 + 12 + 14 + 16 + 16) + 16 = 2 x 3 + 8 • 9 

—^般，: r s = 2 x s -i + 2 S ~ 丨(2 5 - 1 + 1)。 

对于另一个问题，答案分别是2 25 + 2 5 + 2和2〃 1 (2 s h - 1) + 2。 

23. N 个数的每一个在它的子文件中至多有「（\ + 2 -1)(心 + 1 - l )// i s 」 个反序。 

24. ( 同 V.Pratt— 起得到的解。）构造 U ， 2，…， iV 1 的 “/i 违例排列”如下。以 q 

个空白 开始； 然后对于 ； =2,3,4, …执行步骤广每当;是如同习题 

22中那样可表示的一个正整数时，用在这个排列中还未出现的最小数从左到右地 
填人诸空白位置 a 2 。 继续进行，直到所有位置都填满为止。于是对于 N = 20 这个2 

违例排列是 

6 2 1 9 4 3 12 7 5 15 10 8 17 13 11 19 16 14 20 18 

对于所有的 k > h 的 / i 违例排列是 (2+-1) 有序的。当 -1) 时，在步 
骤 j 期间恰好填满公 -1 个位置。它们中的第々+ 1个至少增加2 /1 — 1 -2々到移动 
次数上。这些移动是对排列进行 2 A _1 -1 排序所要求的。因此当 -1) 

时为排序具有增量心= 2$-1 的 A 违例排列的移动次数是 >2 3 〃 4 >^〜 3/2 。 Pratt 

64 

在他的博士论文(斯坦福大学， 1972) 中，把这个构造推广到很大的一类相似序列，包 
括 （12) 在内。 H.Erkio BIT 20(1980),130 〜136讨论了需要甚至更多移动的寻找排 
列的带启发式探索。关于对 Pratt 构造的改进，也请见 Weiss 和 SedgewickJ . Aigo - 
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习题答案 


rithms ,11 (1990) ，242〜251 


25 .F 


[这一结果是由 H . B . Mann 得出的， Econom 衫 rfca 13 (1945) ，256 ■ 


因为这个排列必须由1或2 1开头，至多有 Ln /2」 个 反序； 而且反序的总数是 


N - 1^ t 2 N 广 

r 上 ]V 十 ~c~ -^N-l 


(见习题 1.2.8-12) 


o 


注意， F N + 1 个排列可以方便地由点和破折号的 “ Morse 代码”序 


列表示，这里破折号对应于反序；参见习题4.5.3-32。因此我们已经发现在长度为 
N 的所有 Morse 代码序列中破折号的数目。 


我们的推导表明， 


个随机的3和2有序排列大约有 7( 多 



2i> 


-2 


)N 



— 1 


Nl /5^.216 N 个反序。但如果一个随机排列是3有序的，则它也是2有序的，习题 
42表明，它有〜 N /4 个反序；如果它是2有序的，则它也是3有序的，它有〜 N /3。 

26.是 的； 一个最短的例子是4 1 3 7 2 6 8 5,它有9个反序。一般地 

说，对于构造 a 3k + s = 3 k +4 s 产生3-有序，5-有序，7-有序的一些文件， 


并有近似于个反序。当 Nmod 3 = 2时，这个构造是最好的。 

27. ( a ) 参见 /.AigonUms 15 (1993) ，101 〜124。 C . G . Plaxton * T . SuelJ . A [ 
gorithms 23 (1997) ， 221 〜 240 独立地发现了一^个更简单的证明。它表明， c 可以是 

任何<1/2的常数。 （ b ) 如果 m > + c 2 (ln N/ln In N ) 2 这是显然的。否则 N 1 + W/ ^ 

> N(ln N ) 2 。 R.E Cypher [ S/COMP 22 (1993) ， 62 〜 71 ] 已经证明当对所有的 增 
量满足 h s + 1 > h s 和当一个排序网络像在习题 5.3.4-2 中那样构造时，稍微更强的上限 

是 l Q ( N ( logN) 2 /log log N ) 0 对于渐近的平均运行时间，还不知道非平凡的下限。 

28. 由 （11),209 109 41 19 5 1，但可能还有更好的序列；见习题29。 

29.1971 年 C.Tribolet 的实验，得到选择值373 137 53 19 7 3 l ( B ave 〜 7210) 及 

317 101 31 11 3 l ( B ave = 8170 ) o [这些值中的头一个需要〜127720 w 的排序时间， 

相对照的是当利用增量 （11) 对相同的数.据进行排序时为〜128593“]。一般说来， 
Tribolet 建 议命心 是最接近于 N …的质数。1972年 Shelby Siegel 的实验指出，对于 

N <10000, 在这样的方法下最好的增量数是 jln ( N /5.75)。 

另一方面 ， Marcin Ciura 在2001年的实验指出，增量229 96 41 19 10 4 1可得到 
最小的7遍的 B ave (〜6879)，虽然序列737 176 69 27 10 4 1产生最小的总时间 

125077 w )。 

根据 Carole M. McNamee 所作的广泛测试，最好的3增量序列似乎是45 7 1 

( B ave 〜18240)。对于4增量，在她的测试中91 23 7 1是优胜者 （ B ave 〜 11865) ，但是 
一 个颇为广泛的增量范围也大体给出相同的性能。 

30.在三角区域丨 x In 2 + ^ In 3 < InN , x >0 y ^0 } 中的整数点的个数是+ 
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( log 2 iV )( l 0 g 3 iV ) + O ( logiV )。 由定理 K ， 在我们进行 / i 排序时，这个文件已经是 g/i 
有序的和 3/ i 有 序的； 因此习题25在此适用。 

31.01 START ENT3 T 1 


02 

03 

04 

05 

06 

07 

08 

09 

10 

11 


2H 

4H 


12 

13 

14 

15 

16 

17 

18 

19 

20 
21 
22 


6H 

7H 

8H 

9H 


LD4 

H，3 

ENN2 

- 工 NPUT- N,4 

ST2 

6F(0:2) 

ST2 

7F(0:2) 

ST2 

4F(0:2) 

ENT2 

0,4 

JMP 

9F 

LDA 

工 NPUT + N,1 

CMPA 

工 NPUT + N-H, 

JGE 

8F 


LDX 

STX 

STA 

工 NC1 

工 NC1 

J1NP 

DEC2 


工 NPUT + N - H,1 
INPUT + N ,1 
INPUT + N - H,1 
0,4 
0,4 
2B 
1 


ENT1 - N,2 
J2P 8B 


DEC3 1 
J3P IB 


丁 

T 

丁 

丁 

丁 

丁 

丁 

NT - S - B + A 
NT - S - B + A 
NT - S - B + A 

B 

B 

B 

B 

NT - B + A 
NT - B + A 

S 

T + S 
T + S 

丁 

丁 I 


在程序 D 中 A 是和自左至右的极大值有关的量，在这里和在那里一样 A 也是 
同自右至左的极大值有关的。这两个量都有相同的统计特性。在内循环中的简化 
已经把运行时间减少到 7 iV：r + 7 A -2 S + 1 + 15 丁单位，奇怪，竟同 B 无关！ 

当 iV = 8 时，增量是6,4,3,2，1，而且我们有 A ave = 3.892， B ave = 6.762; 平均总 

的运行时间是 276.24 W (对照表5)。 A 和 B 两者在排列7 3 8 4 5 1 6 2中都取极大 
值。当 N = 1000时，有40个增量，972,864,768,729，."，8,6,4，3,2，1;类似于表6 
中的经验测试给出 A ^875, B ^ 4250，而且总的时间大约是268000 w (比采用习题 
28增量的程序 D 的两倍还长）。 

我们不在一个辅助表中存储增量，而是很方便地在一台二进机器上生成它们如 
下： 

P1 •置 m —2 「 lgNl — \小于 iV 的2的最大幂。 

P2 •置 h — m 。 

P3 .使用/!作为一次排序扫描的增量。 
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习题答案 

P4 •如果 / i 是偶数，则置 h — h + / i /2; 然后如果 / i < N ，则返回到 P 3 
P5 •置 m — Lm /2」， 而且如果 m >\ 则返回 P 2。 ■ 


尽管增量不以递减次序来生成，但这里确定的次序足以使排序算法是有效的。 
32.4 12 11 13 2 0 8 5 10 14 1 6 3 9 16 7 15。 

33.可以作出两种类型的改进。首先，假定人为的键码是 00 ,这样我们可以 

不必测试 f 是否>0。（例如，这个思想已经用于算法 2.2.4 A 中。）其次 ，一 个标准 
的“优化” 技术： 我们可以设置两份内循环，且把对 p 和 g 的寄存器赋值相 交换； 这就 
避免了 q — p 的赋值（这个思想已经用于习题 1.1-3 中）。 

于是，我们假定单元 INPUT 在它的 （0:3) 字段中包含最大可能的值，而且以下列 
程序代替程序 L 中的行07和它后面的 诸行： 


07 

8H 

LD3 

INPUT,2(LINK) 

08 


CMPA 

工 NPUT ， 3(KEY) 

09 


JG 

4F 

10 

7H 

ST1 

工 NPUT,2(LINK) 

11 


ST3 

工 NPUT,1(LINK) 

12 


JMP 

6F 

13 

4H 

LD2 

工 NPUT ， 3(LINK) 

14 


CMPA 

工 NPUT ， 2(KEY) 

15 


JG 

8B 

16 

5H 

ST1 

INPUT,3(LINK) 

17 


ST2 

工 nput’Ulink) 

18 

6H 

DEC1 

1 

19 


ENT3 

0 

20 


LDA 

工 NPUT ， 1 

21 


J1P 

4B 



户 — (这里 — rI3 , q 

三 rl2) 

B ， 


如果 K>K P 则以 

L4 

r 转到 

AT 

L 广 j 


N' 

L j^P 


N' 

转到减少 j 


B" 

夕 — Lg (这里 f — rl2 , q 

=rI3) 

B" 

B" 

如果 K>K P 则以 

P 转到 


L 4 

N" L q —j 

N 〃 L 广 p 

N j—j _ 1 
N g—0 

N K—IC 


N N>j^l I 

这里 B / + B 〃 = B + iV - l ， N / + iV 〃= iV - 1，所以总共的运行时间为 5 B + 14 N + N ， 

-3 单位。由于 iV 7 是在其右边有奇数个较小元素的元素个数，因此它有下列统计 
数字： 


(min O’ave yN + — Hl n / 2 j y H N ,max N - 1J 

00 的技巧也可以加速程序 SJ . H . Halperin 建议的以下代码使用了这一思想以 
及 MOVE 指令，从而使运行时间减少到 （6 B + 11N - 10) w ，其中假定工 NPUT + N + 1单 
元中已经包含有最大可能的单 字值： 
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01 START 
02 2H 


03 

04 

05 

06 

07 

08 

09 

10 


4H 

3H 

5H 


ENT2 N - 1 

LDA INPUT,2 

ENT1 INPUT,2 

JMP 3F 

MOVE 1,1(1) 

CMPA 1,1 

JG 4B 

STA 0,1 

DEC2 1 

J2P 2B 


1 

N -1 
N — 1 
N-l 
B 

B + N-l 
B + N-l 
N-l 
N-l 
N-l 


加倍内循环还将另外节省 B /2 左右的时间单位。 

34.有个 iV 种选择的序列，其中给定的表被选择 n 次； 每个这样的序列出 
现的概率是 ( l / M ) n ( l _ l / M ) N i , 因为给定的表以 1/ M 的概率被选择。 


35.24 

ENT1 

0 

1 

25 

ENT2 

1 - M 

1 

26 7H 

LD3 

HEAD + M,2 

M 

27 

J3Z 

8F 

M 

28 

ST3 

工 NPUT ， 1(LINK) 

M-E 

29 

ENT1 

0,3 

N 

30 

LD3 

工 NPUT ， 1(LINK) 

N 

31 

J3P 

* - 2 

N 

32 8H 

INC2 

1 

M 

33 

J2NP 

7B 

M 


注意： 如果通过在行 19 和 20 之间插入 “STI E1TO 4” 来修改程序 M 以记住每个 

表列当前的末尾，我们可以像在算法 5.2.2 H 那样把表列钩在一起而节省时间。 

36. 程序 L : A = 3 ，B = 41 ，iV = 16 Jh ^=496 w 。 程序 M ： A = 2 + 1 + 1 + 3 = 7, 

5二2 + 0 + 3 + 3 = 8，]\/ = 16，时间= 5492^。（我们还应该加上习题35需要的时间， 
94 W ，以便进行严格地公平的比较。乘法是很慢的！还注意习题33中改进的程序 L 
只花费358^。） 

37. 所述的恒等式等价于 



这可以像在习题34中那样来证明。把其中某些生成函数列成表，以指出 M 增长的 
趋势，可能是有趣的： 

g 4 i ( z ) = (216 + 648之 + 1080之 2 + 1296之 3 + 1080之 4 + 648 z 5 + 216 z 6 )/5184 
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题答案 


g 42 (z 

g 43 (z 


(945 + 1917 z + 1485 z 2 + 594 z 



135 z 4 + 81 z 5 + 27 z 6 )/5184 


(1704 + 2264 z + 840 z 2 + 304 z 3 + 40 z 4 + 24 z 5 + 8 z 6 )/5184 


如果 G M ( w ， z ) 是所述双重生成函数，对 z 求微商给出 


Gm(zv y z) 


W YjSn ( z ) 


n^O 


zv 


n ! 


n \ M~1 


Yjgni 


z 


n^O 


w 

n ! 


因此 


2 Smn (1) 


N >0 


M n w 

Nl 


N 


Me 


(M ~1) w I 

4 


w 


M 

T 


zv 2 e Mw 


类似地，公式 ^：(1) 



n 


2 \4 


+ 



n 




产生 


2 S nm (1) 




zv 


N 


M(M - l ) e (M " 2)w (^e 


N >0 


N 


w 



Me (M - 1} 


w 


16 + 16 w 


w 


把的系数等置给出 ^ w ( l ) 


2 


N 

2 


M 


— l 


’ gNM ( 1 ) 



2 


N 

4 


+ 



N 




M 


-2 


因此方差是 


N 




2 M -1 /N 



4 


2 


M 


一 2 


N 


38. 2 j，n jpj pj ) 


N — n 


n 


2 


N 

2 


^ jP 2 j ； * Pj 


F ( jlM ) - F((j -1)/ 


N 


M )， 且 F / ( x )= f ( x ),^ F 有相当好的特性时，这近似于 j / M 乘 




X 


dx 


[然而， V /( x ) 2 dx 可能十分大。关于适用于所有有限的可积密度的一个改进，请 
见定理 5.2.2 T ]。 

39.为了极小化 AC / M + BM ， 我们需要 M = 所以 M 是刚好高于或低 


39 .为了极小化 AC / M + BM ，我们需要 M = ^ ACfB ，所以 M 是刚好 
于这个量的整数之一。（在程序 M 的情况下，我们将把 M 选成同 iV 成比) 


0 


40.通过把 


限定为 0 (N 




把 （1 - alN) k 展开为 


乘以 （ 1 - ka 2 /2 N 


+ 


•參 


) ，并且使用欧拉求和公式，可以得到对于 


- a / N) n 


—N 


—N — 1 + + k)-Hl - alN ) 


n>N 


k >0 


的渐近级数。它以项 e a Ei ( a ) (I + a 2 /2 N )-(1 



a )/2 N + 0 (N 


-2 


) 开始。因此 


(15) 的渐近值是 iV (lna +y + £ i ( a))/a + (l — e a (l + a ))/2 a + O (N 


一 l 


[对于 


a 


1，2，10 ，N 的系数分别〜 0.7966，0.6596,0.2880。] 注意，由习题 5.2. 2-43,我们 


)t 


dt 


lna + 7 + E 1 ( a ) = J q (1 " _1 d ^ 0 

4 l .( a ) 我们有〜 = 0( 〆 ）， 因为质数定理意味着在 〆 和 〆 + 1 之间的质数个数 
是(/ + 1 /以+ 1)- ^/ yO / lnp + CK〆 ^ 2 ); 对于所有充分大的々来说这为正。因此 

(10) 的头 ^ 1个兀素之和是21</<^<4((2,，(^ )= ： Tj \^ i < j ^ kO ( p t + j ) ;而且我们有 


S 


P 




p 3 ( p k - i )( p k 1 


-i) 


Ki < j^k 


(p 2 - l)(p - 1) 
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5.2.1 小节 


( b ) 如果 [ k ~ 2 1 )< hg p N ^ 0,我们有 U — 2) 2 <21 o % N ， 因此 = 


0( exp V In N ) 0 

注意当 i 时，基序列 q，a 2 ，…变成等于质数序列，而且定理 i 的上限简化为 

0(N(log N) 4 (log log N)- 2 ) q 

42.(3)[姚期智，丄八反 0 1^1113 1 (1980),14 〜 50]。 我们可以证明对表列的 


每 





对贡献 




2 


/ i ~ 3/2 N 3/2 + 0( N / g / i ) 个反序给每个子文件 （ K a ，K 


a + g ，+ 2g 


… ） ，例如，假设 /i = 12, g = 5 , a = 1，并且考虑表列 K 3 〈 K 15 〈 K 2 7 < … 

和尺 7 <尺 19 <尺 31 < —同子文件（尺 1 ，尺 6 ，尺 11 ，一)相交中的反序。在头一次扫描之 
后，（尺 3 ，尺 7 ，尺 15 ，尺 19 ，尺 27 ，尺 31 ，〜）是一个随机2有序的排列。我们所关心的元素 
^ 有 7 = 1(modulo 5) 和）三3或7 (modulo 12) ;因此 j 三51 或31 (modulo 60) 。因此 

我们要来计算 g(51，31) 的平均值。其中 

g ( 工 ， y ) — > : ( [ K y + ghk ] + - + ghj ^ + ghk - ) r(JT ， 3^) 

J<k 


r V X 


， 3^ ) 一 > : ~mini x ^ y) + ghj ^ ^ max( x , 3 /) + ghj - ^ NI gh 



J 


如果 I p I 和 lg I ，我们有 


K 


ph- gh 


> K 


k + qh + gh 


< [X, > K 


< [K 


j + Ph + gh 


> K 


k + qh — gh 


因此 




Kj ；； + g/lj 〉 Ky _ 



K 


y + ghj 


>K 


X 


ghk - 




[K 


x + ph gh(j + l) 


>K 


y + qh + gh ( k — 1)- 




3 ； + q/i + g / i ( ； + 1 ) 



x ^ ph ^ gh{k ~ \ ) 



而且由此得出 g{x , y )^, g{x + ph ,y + qh ) + 8 NI gh 。 类似地我们求得 g(x , 
y )^ g( x + ph ， y qh ) _ 8 NI gh Q 但对于任何给定的 b 幸 c ，对于使得: r mod h — b 
和 3; mod h — c 的所有 g 2 对 （x，3；)，g(x，3；) 之和是在 2 N/h 个兀素的一个随机 2 有 


序排列的反序的总数。因此由习题 14，gU，30 的平均值为 g - 2 ^ m (2 Nlh ) 312 
+ 0( Nlgh ) 0 

(b) 参见 S. Janson 和 D. E. Knuth ,Random Structures and Algs . 10 (1997) , 125 


〜 142 。 当 /i 和 g 很大时，我们有 (p (h ， g ) = \J tc/i/128 g + O ( g ~ 1/2 h 112 ) + 

0 (gh - ll2 )。 

43 .如果在步骤 D 3 之后尺<尺 / ，则置（尺 / ，".，冯—/ 1 ，巧）—（尺，&，".，％_ /2 ) ; 否 

则执行步骤 D 4 和 D 5 直到 K > K l 0 这里当 j = /i + l 时 Z = l ， 当 j 增加1时 ， Z —Z + 1 

—/ i[Z = / i ]。 [参见 H . W . Thimbleby , Soft ware Practice & Exper . 19 ( 1989 ) ， 303 〜 307 ] 。 

无论如何，使用适当的增量序列，内循环将不经常执行使得这个改进有必要。 

加速这个程序的另一个想法[参见 W . Dobosiewicz , Inf . Proc . Letters , 11 

(1980),5 〜 6] 是当 h > l 时仅仅部分地排序，而不试图使&传播到比 ； - /i 更左的 
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习题答案 


位置; 但该方法似乎要求更多的增量。 

44. ( a ) 是的。每当 〆 是比 tt 局 一 '步时，这是显然的，而且习题 5.1. 1~29 表明， 
有从 7 T 到它上面的任何排列的相邻转置的一条通路。 

(6) 是的。类似地，如果 7 T 在/之上，则/是在 TT * 之下。 

( C ) 否； 2 1 3既不在3 1 2之上也不在它之下，但2 1 3<3 1 2。 

[偏序 首先是由 C . Ehresmann , Annals of Math . (2) 35 (1934) ， 396 〜 443 

§20 在代数拓扑的范畴中讨论的。许多数学家现在把它叫做排列的 “ Bruhat 次 
序”，而在上性叫做“弱 Bruhat 次序”——尽管在上性实际上是一个更强的条件，因 
为它不太常成立。仅仅弱的次序定义一个格]。 

5.2.2 小节 

1. 否；它少 2 m + 1个反序，其中 m >0是使得 i 〈 k 〈 j 且 a , > q > a ; 的兀素 q 
的个数。（因此所有的交换排序方法最终都将收敛到一个排好序的排列。） 

2. ( a )6 0 ( b ) [ A . Cayley , Philosophical . Mag . (3) 34 (1849) ， 527 〜 529.] 考虑 7 r 

的循环表示。在同一循环中的任何元素交换，都使循环数加1;在不同循环中的任 
何元素交换都使循环数减1。（这实际上是习题 2.2.4-3 的内容。）一个完全排好序 
的排列通过有 n 个循环来表征。因此 Xch ( TT ) 是77减 7 T 中的循环个数。[算法 
5.2.3 S 恰恰进行 xchU ) 个 交换； 见习题 5.2. 3-4。] 

3 . 是； 相等的元素决不能彼此交叉地移动。 

4. 它是在反序表中心 > max (6 2 ，…， b n ) 的概率，即 

( XI k \ k n - k - l ) ln \ = + 0( n ~ l ) =可忽略的 

l<k 〈 n 

5 . 我们可以假定 r >0 。 设 6 / = ( - r + 1) [ ] 是在 r - 1 次扫描之后的反 

序表。如果以>0,则元素 z 就居于<个更大的元素之后，这些更大的元素中的最大 
者至少将往上冒到 b \ + 2的位置，因为有 z 个元素而且如果元素 ； 是有待交 
换的最右者，则在第 r 次扫描之后，我们有 6/ > 0 和 BOUND = b - + j _ 1 。 

6 . 解法1: 一 个被放置在离它最后位置右边最远的元素，在每次扫描中都左移一 
步，最后一次扫描除外。解法 2( 更高级 的）： 由习题 5.1. 1-8,答案 （ f )， 对于 l « n ， 
a / — z = U 中 c i c 2 … Q 是对偶的反序表。 如果匀 ，…，心）则 q =0。 

7 . (2(n + 1)(1 + P ( n) - P ( n + 1)) — P ( n ) - P ( n ) 2 = \! (2 -丌 /2)?? + 

O ⑴。 

8 . 当 i < k +2 时，对于乂有 j + 々 _ f + 1 种选择；当 k +2< i<n _ j + 2 时有 

j - l 种 选择； 而且当时有 n-z + 1 种选择。 

10. ( a ) 如果 z •二26 — 1，则从 （A — 1，〜 _ A ) 到（々，< 2 / -々）。若 f = 2々，则从 （< 2 Z . _ 

k . k - mn ^- k^^o ( b ) 步骤在对角线的上部当且仅当 k < aik —「 k ^ 

且仅当当且仅当 当且仅当 - 1当且仅当 a 2k ~ k < 
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5.2.2 小节 


々 -1 当且仅当步骤在对角线的上部。交换它们就对换了水平的和垂直的步骤。 
(C) 步骤 + d 在对角线之下距离至少是的地方当且仅当々 + m _ 1 ^ (22^ + ^ — 
U + m ) + m 当且仅当 m 当且仅当 + m 当且仅当 

m 当且仅当步骤在对角线之下距离至少是 m 的地方。（如果 a 2k + d < 2 k + 
m 且 < 2 2 々 <2々+ m ，则至少有 (k + m ) + k 个元素小于 2 k + m ;这是不可能的。如果 
a 2 k + + m 且 a 〗》 ^- 2 k + m ，则 > 中有一^个必是〉；但我们不能把+ m 的 

所有元素都填入少于 U + m ) + A 个位置中。因此 + 2w _ i 当且仅当 
a 2 k + 2 m - i^^k + m 当且仅当 2々+ m ^ a 2 ko 这是一^个相当意外的结果！） 

11. 考虑格子图式，即得 16 10 13 5 14 6 9 2 15 8 11 3 12 4 7 1 (61 个交换）。当 
N 更大时这一情况变得更为 复杂； 一般地说，集合 | K 2 ， K 4 , … | 应当是 丨1，2, …， 
M - l ， M，M + 2 ，M + 4，〜，2 lN / 2 ] - M } ，排列之以便使对于 LN /2」 个元素的交换 


成为极大。这里 M = 「 2”31 其中々 使 HN/2 」 -|-((3A -2)2 k - 1 + ( - if ) 成为极 


大。交换总数的极大值是 l-21glgN/lgiV+ 0(l/logN) 乘以比较的次数。 [R. 
Sedgewick ,SICOMP 1 (1978) ,239 - 272 Q ] 

12 . 下列由 W. Panny 编制的程序通过指出，对于 z = r + 2kp + s ， A >0 和 （X 

执行步骤 M4, 而避免 AND 指令。在这里， TTe2 ， — 丨， /) 三 rll ， r 三 rI2" • 三 rI3, 
i ^ d ~ JV 三 rI4 ，以及 p - 1 - 5=rI5 ; 假定 iV^2 0 


01 

START 

ENT1 

TT 

02 

2H 

ENT2 

TT 

03 


ST2 

Q(l:2) 

04 


ENT2 

0 


1 Ml . 初始化 p 。 p—7T l 
T M2 . 初始化 q,r,d 

T q—r - 1 
T r—0 


05 


ENT4 

06 

3H 

ENT3 

07 


INC4 

08 

8H 

ENT5 

09 


LDA 

10 


CMPA 

11 


JLE 

12 


LDX 


0,1 T 

0,2 A 

- N，3 A 

-1,1 D + E 

INPUT +1,3 C 

INPUT + N + 1 ， 4 C 

* + 4 C 

INPUT + N + 1 ， 4 B 


rM^—d 

M3 . 对 i 进行循环。 i^r 
rI4—f + d _ N 

M4 . 比较 / 交换 R i + 1 : R t + d + 1 
如果 K 2 + 1 <i^. + £/ + 1 则跳转 


13 STX 工 NPUT+1，3 B R 1 + l ^R l + d + l 


14 

STA 

INPUT + N + 

15 

J5Z 

7F 

16 

DEC5 

1 

17 

INC3 

1 

18 

INC4 

1 


,4 B 

C 如果 s = 则跳转 
C — D s^s + 1 

C — D + 1 
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19 

20 
21 
22 

23 

24 

25 

26 

27 

28 

29 

30 

31 

32 

33 

34 

35 


7H 


5H 



6H 


J4N 

JMP 

INC3 

工 NC4 

J4N 

ENT2 

ENT4 

ENTA 

SRB 

STA 

DEC4 

J4P 

ENTA 

SRB 

STA 

ENT1 

JIN2 


4B 

5F 


4B 


关 


，4 


Q(l:2) 


3B 

0, 


* + 1 ( 1 : 2 ) 


关 


2B 


C-D 

E 

D 

D 

D 

A 

A 

A 

A 

A 

A 

A 

丁 

丁 

丁 

丁 

丁 


如果 i + d < N 则重复 
否则转到 M 5 



P 



如果 i + d < iV 则重复循环 


M 5 .对 q 进行循环。 


r 


P 


rI 4 


Q 


rI 4 


q /2 

—d 


如果则转向 M 3 
M 6 .对 p 进行循环 


如果 pko 则转向 M 2 


运行时间依赖于六个量，其中仅有一个依赖于输入数据（剩下五个仅是 N 的函数) 


T 


I 即“主循环”的 数目 ； A 



1)/2,扫描的次数或“次循环”的 数目 ； B 


(可 


变的）交换 次数 ； C 


比较 次数 ; D 




连续的比较的块区数；£： 


不完备的块区数。当 


N 


时，不难证明 D 


2) N + t + 2 R 


0 


3+0+1+4+0+0+8+0+4+5 


25 ，C 


63 ，D 


对于表 
38, E = 


A 


10 ， jB 


0,所以总运行时间是 


11 A + 6 JB + 10 C + 2 E + 12 丁 + 1 




939 u 


般地说，当 N 


2 e i + 




+ 2% 时 ， Panny 已经证明 ， D 


ejN + l)—2(2W )， 


E 





2 


{ei + e 2 + 




+ 心 -1) 


- 1)( r 


1) 


13 .否，算法 Q 或 R 都不是。 


14.( a ) 当 p 


1时，我们对于最后的合并，进行 (2 


一 1 


- 0 ) 



( 2，—1 — 1 ) + ( 2 卜 1 — 


2) + (2, — 1 - 4) + 


• • • 


+ ( 2 , 


— 1 


2 


1)2^ 


一 1 



次比较。 ( b)x 


x ♦— 



2 


(^- 1)+2 


x 0 



S 


0^k<t 


2 


k 七 2 


— k ~ I 


2 


2 



- 2 


因此 


c(20 


2卜 2 U 2 - f + 4) -1。 


15 . ( a ) 考虑使 i + d 
+ 1) ，则有 b (2 n )= 


iv 的比较 次数； 然后对 r 使用归纳法。 （ b ) 如果 6 U ) 

c ( + 1) ，贝 1 ]有 b (2n ) = a ( l ) + … + a (2n ) = a (0) + a (1 ) + a ( l ) + ••• + a(n ~ 1) 
a(n) + x (1) + x (2) + ••• + x(2n) = 26(??) + y(2n) — 以地 ， ■ 

26( w ) + 3；(2 ^z + 1)。（ c ) 参见习题 1 • 2.4-42。（ d ) 对于 （ z ( iV ) + 2 z ( LiV /2」）+ 



1) 


參 • 


)- 


a ( N ) 的 




个颇为费劲的计算，并利用诸如 
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果 


±2 k ( n - k )=2 n 

k = 0 




n + 2 


2 



- i 的公式，即得结 




16.考虑如同图11和18中从(0,0)到 （ n ， n ) 的条格子通路，而且如果 

J 便附加权 /( i ~ j ), 如果 i j 则附加权 /(+ l 到从 （ f ) 到+ 1 ) 的边 
上； 这里 / U ) 是在二进展开々=(… 62600)2 中二进位 ~ + 1 的个数。当 N = 
2 n 时在最后合并中的交换总次数为 




(2/G) + 1) 




2 n — 2 i + j — 1 
n — i — 1 



R . Sedgewick 证明，对一般的 / 这个和简化成为 


卜21^ 然后他使用伽玛函数的方法得到渐近 

公式 


[ 2 ^)^\ nl ^ n + dg 1 " (义 4) + | + fj^| + S (” ))” + 0( y^log n )， 其中 d ( n ) 

是 lg n 的一个周期函数且有以 .0005 为界的 数量； 因此当 n — oo 时，平均说来，大约 

四分之一的比较导致交换 [SJCOMP 7 (1978)，239〜272;也参见 Flajolet 和 
Odlyzko ,SIAM J . Discrete Math . 3 (1990)，238 〜 239] 。 

17 •当我们对一个 r = iVSK z 是最大键码的子文件排序时，检查 K N+1 。当自 

左至右的极小值落在位置时，在步骤 Q 9 期间，检查 K q 。 

18.在离开 Q 5 之前，步骤 Q 3 和 Q 4 仅作对 z •和 j 的一个 改变； 私…見的分划 

过程在步骤 Q 7 中以 7 =「（/ + r )/2] 结束，并且尽可能完善地分开这个子文件。定 


量地说，我们以 A 二 l，B = L ( iV _ 1)/2 」， C = iV + (iVmod 2) 代替 （17); 除非 

C ， 这实质上使我们处于此算法的最好情况（参看习题27)。如果把步骤 Q 3 和 Q 4 
的“< ”号变为“<”，则本算法将不再 排序； 即使在 （13) 中我们取“ < ”号，它将交换 
只 0 和 i ^， 那样第三个分划阶段将把原来的只 0 移到位置只 2 去，等等，即成为一个 
真正的灾难。 

19. 是，其它文件可以以任意顺序来处理。（但当每一个分划步骤相等地划分文 

件时队将包含个项，而可以保证栈包含的要比这小得多（参见下 
题)。 

20. max (0， Llg(iV + 2 )/(M + 2)」）。 （当 iV = （M + 2) - 1 且若划分子文件时 
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它是 （1/ N !) 乘以 （5-1)! 种对丨1，…， 5 - 1丨进行排列的方法乘以 （ N _5)! 种对 

•s + 1，…， N 1进行排列的方法乘以每边上具有 z 个被移动元素的1 5 t ^){ N t 1种 
型式; 对于 0< iV < M ， 我们有 B N ( z ) = C N ( z ) = S N ( z ) = l ； D N ( z ) = + 

(k — l ) z )/々）； 而且 E n ( z ) — II “（1 + z + … + z kl )l k ) 。 

[当 N 很大时，考虑这些生成函数的特性是有 趣的； 已知类似于 C N U ) 但以 
，- 1 代替 ， +1 的一个序列收敛到一个非正态的概率分布，但对它还未作过充分分 

析。参见 P . Hennequin , M . Regnier 和 U . Rosier 在 _RAIRO Theoretical Informatics 

and Applications 23 (1989) ， 317 〜 333; 23 (1989) ， 335 〜 343; 25 (1991 )，85 〜 100 的 
论文。] 

23.当 iV > M 时， An 二 1 + (2/ N ) J ^ 0 ^ k < N A k ； B N = 2 o <^< 5 < n ^ 5 zn ( ^ + ^ 5 -i + 

B N _ 5 ) = (l/N)S 5 ]V =1 ((5-l)(iV-60/(iV-l) + B 5 _! + B N _ 5 ) = ( N -2)/6+ (2/ N ) 

[参见习题 22]； D n = (2 lN )‘ k < N D k ; E N 是类 似的； 当 N >2 M + 1 

H ， S N =(2 lN ) I ： 0< k < N S k + ( N -2 M -2) lN 。 对于某个函数/„，这些递推式的每 
一 个都有 （19) 的形式。 
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5.2.2 小节 


24. 对于 iV > M ， 递推式 C N = N - 1 + (2/ N ) T ^ < N C k ，对于 N > M , 有解 （N 
+ l )(2 H N + 1 -2 H M + 2 + l -4 /(M + 2)+2 /(iV + l )) 0 (所以我们节省了大约 4 JV/M 
次比较。但如果在比较之后紧跟着要有 f 同 ； 的测试，则每次比较要花费更长的时 

间，因此除非一个键码比较的费用超过 In iV 乘以一个寄存器比较的费用，否则 

我们有损失。关于排序的许多书都没有认识到，这样一个“改进”使得快速排序显著 

地不快速！）。 

25. ( 对于 5 = 1 重复地利用 （17 )JA = N — M ， B =0， C = [ N ~ (^ 2 ). 
D = E = S = 0。 

26. 实际上你不能比对1 2 3 …， N - M N N — 1 … N — M +1 排序做得 更糟; 更 
微妙的答案 iVM -1 M - 2…1 MM +1 … N -1 同样是一种坏的情况。这仅仅比 

习题25坏一点，因为它使 D = M - 1，£= ( fj 。 


27.12 2 3 1 8 6 7 5 9 10 11 4 16 14 15 13 20 18 

19 17 21 22 23,它要求 546 w 。 可以证明，当通过每一个分划来分开子文件直 

到达到 3 M + 2 的大小时，对于 iV = 3( M + l )2*- 1出现最好的 情况； 然后分成 



以避免压入栈的开销。我们有 A 


3 


1 ，C 


k 



5 


3 


(N + 1 )，S 


D = E = 0 o (一般的 M 和 iV 的最好情况的特性作成一个有趣但复杂的模式) 


o 


28.递推式 


可以被转换成 




29.—般地说，考虑递推式 


= 2 (n - 1 )U - 2) + 2 U — 2) C n _ 2 


C 


n 



2 

n 

2 玄 + 1 




当+ 1个元素的均值支配分划时就发生这种情况。命 C ( z ) = 这个递推 

式可转换成 （1 — z) t + 1 C (2t + 1) ( z ) l (2 t ^2)\ =1/(1 — z) z + 2 + C ⑴ U)/U + 1)!。 
命 /( 工） = C ⑴ （1 —工） ；则 p t ( d ) f { x ) = {It +2)! // + 2 ,其中 0 表示算子: T ( d / 


对于 a^j3,(d- a)g(x) = x^ 的通解是 
g(x) = x^l ( /? - a) + Cx a ; 对于 a = j3^g(x) = x l3 ( Inx + C ) 。 我们有九 （_ Z — 2 ) 

= 0; 所以我们的微分方程的通解是 
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( 2 ： ) = {2 t + 2) ! ln ( 1 — z) Ip : ( - t - 2)(1- z ) t+2 + c ; (l - z) a j 

这里叫，…力是 AU )=0 的根，而且常数依赖于初值 C ,， …， ; C 2 ,。 由手边的恒等 

式 


1 


(1 一 


Z 


+ 1 


In 


1 - 


z 


S(H n 


- H 


71 



771 


Z 


n 


m 




n^O 


m 


导出惊人地简单的 封闭形式的解 


c 


H 


n +1 




t 


+ 1 


n 


H 


2 《 +2 




n 



l ) 



+i 


n 



c 


a , ) n 


t 


0 


由此容易导出渐近公式。（前导项 n In n/(H 


2 / + 2 


— H 


) 是由 M . H . van Emden 


[CACM 13 (1970),563 〜 567]) 发现的，他利用了一项信息论的方法。事实上，假设 


我们希望分析任何具下列性质的分划过程，它使得对于当 iV 


时左子 


文件以渐近概率丨 Sf (^) dx 至多包含: dV 个 元素 ； Van Emden 已经证明，为了完 
整地对这个文件排序所需要的平均比较次数是近似于其中《 = 


- 1 


. + /(I - x)) x ln : cd : c 。 这个公式既可应用于基数交换方法，也可用于快 

速排序和各种其它的方法。又见 H . Hurwitz，CACM 14 (1971) ，99〜102。） 

30. 解法 1( 有历史意义 的）： 每个子文件都可以由四个量 （ Z ， r ， UO 来标识，这 
里 Z 和 r 是边界(指当前的），&表示在整个子文件中已知具有相等的键码的字数 ，X 
是诸键码的第 U + 1) 个字的下界。采用非负的键码，我们开始时有= 
( l , N ,0,0) o 当分划一个文件时，我们命 K 是测试键码的第 U + 1) 个字。如果 

K > X ， 则分划把所有的键码划在右边，所有 < K 的键码划在左边。（每次仅仅 
考察键码的第（々+ 1) 个字）；通过分划产生的子文件的标识分别是 （ Z ，） - 1， A ， X ) 和 
( j ， r ， k ， K )。 但如果 K = X 则分划把所有的键码划在右边，所有[实际上 
= K ] 的键码划在左边，通过分划产生的子文件的标识分别是 j + 1，0)以及 
(j + l , r , k , K ) 0 在两种情况下，都不能保证氏是在它最后的位置，因为我们没有 

考察第 U +2) 个字。为了适当处理边界条件，应作显然的进一步的修改。通过增加 

第五个“上限”分量，这个方法可以成为对左边和右边是对称的。 

解法2，由 Bentley 和 Sedgewick 给出 [SODA 8 ( 1997 ) , 360〜369 ] :在由 （ Z ， r ， 

々）标识的一个子文件中，和在解法1中一样命 K 是的字々 + 1，但使用习题41的 

算法来把子文件分成对于 < K ，= K ，> K 的三种情况的 j + 1)， 
G + l ， r ，；0。 作者们称这个方法为多 键码快速排序 ，它比解法1显著地好得多，因 

此它堪同对字符串进行排序的最快的方法相匹敌。 

31. 通过一个正常的分划过程使最后落到尺上。如果 s = m ，则 停止； 如果 

s 〈 m ，则使用同样的技术来求右边子文件的第 （m - :?)个最小的元素；如果 s> m 
则找左边子文件的第 m 个最小元素 [ G 46 M 4(1961),321 〜322;14 (1971),39 〜 

45] 0 
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R . G - Dromey [ So/eware Practice & Experience ,16 (1986) ， 981 〜 986] 已经注意 

到，只要 i 或 J 已经达到位置 m 时，如果我们停止每个分划，就需要较少的比较和交 
换。 

32.递推式是 Cn = 0 和当 ”>1 时 ， C _ 二” + 1 + ( A _ + 5画）/”，其中对于1 


A 


nm 




-s)(m- s) 


和 


B 


nm 




l ) 


m 


l^s< m 


由于 


m< n 


+ l)(m + l) 


= A 


nm 



C 


nm 


和召(” + 1) m 


B 


nm 



c 


nm 


，因此我们可以首先求量 


n 



1) ^ (n + l)(m + 1) 


nC 


nm 


的一个公式，然后对它们求和以得到答案 2 ((n + l ) 


H 


(n + 2 — m ) H n 


+ 1 一 


m 


— ( 


m 


+ 1)H 


m 



n + 





” = 2 m _ 1 时，它变成为 4 m ( H 2m -i - H m ) + 4 m - 4 H m + 4"(1 - ^ m i ) = (4 + 41 n 2) 

m - 41 nm ~ 4/ -吾 + O ( m~ l )^3. 39 n 0 [参见 D . E . Y ^ rmth ., Proc . IFIP Congress 
(1971),19 〜 27]。 


另一个解法由 6.2.2 节的理论 得岀： 假设诸键码是 1 1，2,…， M ，且设 X # 是在对 

应于快速排序的二分查找树中节点 j 和々 公共的祖先的个数。于是可以证明，由习 
题31的算法所作的比较次数为 + 2[节点 m 是一个叶]。在一个随 


机—^分查找树中节点 i 是节点 j 和々公共的祖先的概率是1/ ( max ( i ,j , k ) - min ( i ， 


i ， k) 



1)。 由下列事实，即对于 


H 



H 


n + 1 — k 


+ 


2 H k 


7 + 


i ，以及 


Pr (节点 m 是一个叶） = Pr (在一个随机排列中 m 之后不是 m ± 1 ) = | + +心工+ 

3 6 


+ 。 [参见 R . Raman ,SIGACT News 25 ,2(1994 年6月 ） ，86〜 89] 。 

关于使用三取中的分划的一个类似选择算法的分析，参见 Kirschenhofer , 
Prodinger 以及 Martinez , Random Structures and Algorithms 10(1997), 143 〜 156。在 

习题 5.3.3-24 中讨论了一些渐近地更快的方法。 

33. 像在基数交换的第一阶段那样进行，并且利用正负号代替二进位1。 

34. 只要我们在每个阶段已经找到至少一个二进位0和至少一个二进位1，即在 
每个阶段中进行了头一次交换之后，即可以避免作是否 z < j 的判断，这在程序 R 中 
节省了接近 2 C 的时间单位。 

35. A = N -1 ，B 二 (min 0 ，ave + iVlgiV，max 士 iV lg N ) ， C 二 NlgN ， G = 士 iV ， 


K 


L 


R 




0 ,S 




2 ^N - 1, X = I min 0 , ave 了 ( iV — 1 ) ， max N - 1 


般来说，量 


A , C , G , K , L,R 和 S 仅依赖于文件中的键码的集合，而不依赖于它们幵始时的次 
序，仅仅 B 和 X 受键码的初始顺序的影响。 
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题答案 



36. ( a ) 2 


n 




- 1 ) 


+ 7 


a 


s 


n 


n 


k - 


-i) 


k - i 


a 


s 


n 


^ nj _ 


(b)(d n0 );(-d nl );((-l) m d 


nm 


;〈（1 — 


a 


n )； 


n 


(- a) m (l - a) n ~ m 


) 把有 


m 


待证明的关系式写成二％ 


a n + z n , 由 （ a ) 部分我们有 ： y n = ; 而且 


2 1 ~ n S 


n 


k >2 



Jk 


，所以 ： y n 和心 


样满足相同的递推式。[关于这个结果的某 


些推广，见习题53和6.3-17。直接证明4 = a \2 n — V (2 n — i - l ) 看来并不容易。] 


37. 


S 


n 


mCm 


2 


m 


2 n ，其中^，^，^，…为任意常数序列。[这个答案尽管是 


正确的，但并不立即揭示出 〈 l/(/z + 1)>和 〈/z 


九0是这样的序列！形式为 〈 a n 



心〉 的序列总是自对偶的。注意，借助于生成函数 AU ) 




2 a n z n I n 


我们有 A(z 


e z A (一 z ) ;因此 A 




A 等价于说， A ( z ) e — = /2 是 


个偶函数。] 


38•产生大小为 s 的一个左文件和大小为 iV - s 的一个右文件的一个分划阶段， 


对总的运行时间作出如下的 贡献: 


A 


， B 


， C 




N ， 


K 


^ sl ， 


L 


^sO ， 


R 


^sN y 


X 


h ， 


这里 Z 是1^，…，诸键码中 


进位 d 等于1的键码的个数，而且 A 是 K 5 + 1 的二进 


位6;如果 s 


iV ， 则 h 


0( 参见 （17)) 


0 


这导致诸如 


Bn 


2 


N 




N 


+凡+ B 


N 




4 


(N - 1 ) 



2 1_n 2 { n ) b 

s >2 ^S J 


s 


对于 iV >2 ;B 


B 


0 


的递推方程(参见习题 23)。 用习题36的方法来解这些递推式，得出公式 A 


N 


V N 


U N + 1, B n = ~^( Un + N - 1), C]v — V N + N , K n = N /2 , L N = R N = - U N 


~ N ) + 1, X]y = 。显然 Gn = 0 。 

39 . 快速排序的每个阶段至少把一个元素放入到它最后的位置，但在基数交换 
期间则不一定(参见表3)。 

40. 如果我们在步骤 R 2 中每当 r - Z < M 时即转到直接插入，则这个问题不出 
现，除非有多于 M 个相等的元素出现。如果后者是一种可能的前景，则在步骤 R 8 
中每当或 7 = r 时，我们可以判断是否 = 〜 = 

41. Lutz M . Wegner[IEEE Trans 034(1985)，362 〜 367] 讨论了若干种方法，其 
中下面这个（由 Bentley 和 Mcllroy 在 Soft ware Practice & Exp . 23 ( 1993 )，1256〜 

1258作了简化)方法看来在实践中是最好的。基本的思想是以五部分的数组 
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=K <K ? >K =K 

La b c d r 

来进行工作直到中间部分为空为止，然后把两端交换到中间去 。 

D1 •[初始化]置 a — b — l ， c—d — r 。 

D2. [增加6直到 K 6 > K 为止]如果 b < c 和 K 6 < K ， 则6加1并且重复这一 

步骤。如果 b < c 且 = 则交换 RfR b ， a 和6加1，并且重复这一步 
骤。 

D3. [减少 c 直到为止]如果 b ^ c 和\>尺，则 c 减 1 并且重复这一 

步骤。如果且反二 K ， 则交换 RfR d ， c 和咸1，并重复这一步 
骤 。 

D4 •[交换]如果 b < c ，交換 R b eR c ， b 加 l ， c 减1，并返回 D2 。 

D5 •[清除]对于 0< k < min ( aU - a ) 交换私+ 6 ㈠ 尺― p 对于 0<々 <min 

(d _ c ,r — 也交换 R b + R r - k o 最后置 i — L 十 b _ a,j — r — d + c 。 


对于步骤 D 1 的直截了当的修改将有效地处理蜕化情况并且确保在我们达到 
D 2 之前，有和 cd 然后在 D 2 和 D 3 中对的测试就不必 要了； 参见 
习题24。而且，这个变动将使这些步骤本身无需交换记录。 

排序的主要应用之一是把有相等键码的记录放在一起，因此算法 Q 的三划分 
方案通常比二划分方案更可取。在步骤 D 5 中的交换是有效的因为具有等于 K 的 

键码的所有记录现在都在它们最后的栖息地。 

本习题是由 W . H . J ， Feijen 给出的，他把它叫做“荷兰国旗问 题”： 给定在一列中 

随机地安排的红，白和蓝的标记的集合，判定应如何交换标记对使得红的标记将居 
于顶上，而蓝的那些全都居于下边，同时将只考察每个标记一次和仅使用一些辅助 

变量来控制这个过程[参见 E . W . Dijkstra,A Discipline of Programming ( Prentice - 

Hall ,1976)， 第 14 章]。 

42 . 这是由 R . M . Karp 给出的一般定理的特殊 情况； 参见 MCM 41(1994),1136 
〜1150，§ 2 . 8 0 McDiarmid 和 Hayward , J . Algorithms 21( 1996)，476 〜 507 已经得到 

对于快速排序分布的尾部更准确得多的渐近上限。 

43. 当 a — 0+时由习题 1.2.7-24, i ( e ~ y - l)dy + | T y a ~ 1 ^ y dy = T ( a ) 

-i/a = (ru + i)-r(i))/a—r ，（ i)= - y 0 

44 . 对于 k^O , 我们有 q ( 77 z ) 〜士 ■ (2 m Y k + l ^ 2 r (( 々 + 1 )/2) _ — 

S ;>0 (- l )^ + 2; + i /((^+2; + l );! (2 m )])。 当々 =—1 时 （36) 中来自 /^ — ”（肌）的 

贡献与的展开式中类似的项相消，而且我们有 r - Jm ) = &_: + (1/ V 2 ttz ) 


^> 0/] ⑴〜 y ( ln(2 


m 


)+ 7)- 


J ： J >1 (- iyB 2 j K 2 j ) j \ (2 my o 因此由 （33) 的项 
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习题答案 


N l /t 对 贡献得自和数 mS^i^^exp (- t 2 l2m)(l-t 3 l3 


2 


m 


2 



/ I 8 m 4 )(l 


4 



m 


)(1 - t/2 


m 


2l °m 2 



+ 0 ( 


m 


— 1/2 


2 


m 


\nm 



2 


( ln 2 + y ) m 



12 


V 2 izm + 音 + 0( 撕 — " 2 ) 0 项 贡 献-士 S ，> iexp (- t 2 /2 m ) ( 1 _ t 3 1 3 m 2 ) 

(1 - "2 m ) 、 （ 1 _ tj m ) + O = - 2 丌 m + 香。项士 〜产生士。最后项 

■y ( ^ — 1) jB 2 N z — 2 贡献 — 1 S z > i ^ exp ( - t 2 /2 m ) + 0 (m — 1 / 2 )=吾+ 0 (m — 1/2 )。 

45 . 用来推导 (42) 的论证对于 (43) 也是有效的，但应略去在 -1 和^ = 0处 
的残数。 

46. 如同我们对于 (45) 所做的那样，我们得到 （s — 1) ! /\ n 2 + d s (n) ，这里 



2 

In 2 


S^(r ( 5 

是 >i 


2 mklln 2 )exp( 27 ri^lgn)) 


(注意:对于整数5^0 ，|rG + i 0 l 2= ( n o <^<5 ( + tsm h 7 r 0 ， 所以我们 

可以给岀 AU ) 的界。） 

47.事实上，对于所有 5>0, S ;>1 e " W 2； ( n /2 O 5 等于习题46中的积分。 


48.利用中间恒等式 


1 


e 


X 


- 1 
2 丌 i J 


-l/2+i ⑺ 


—1/2 —i 


T(z) x 


Z 


dz 


我们沿用正文中的方法，但1 - 起着 e 


X 


一 1 



x 


的作用 



w + 1 / ( 


n 



l ) 


一 l/2m) 


— T 1 T(z)n- Z 


dz/(2~ z -1) + 0( 


n 


- 1 


) ，而且在习题 46 的记号下，这个 


2 


lOO 


积分等于 lg n + //In 2 ~ ~ d 0 ( n ) + O (n 100 

N ( l / ln 2— d 0 (N -1) - l “ N )) + 0(1) 0 ] 

49 .等式 （40) 的右边可以改进为估计 


)。[于是在习题38中的量乂〜是 




x 2 /h + O (( x 3 + 



其效果是使习题47中的和减半，并且以 2-|( l / ln 2+& U )) + 0( n — 0代替 （50) 
中的0(1)。(“2”来自于 (46) 中的 “2/ n ”。) 

1 

50 • U mn = nlog m n + n (( 7 — 1)/( In m ) — 7 + (^-1 ( n )) + ml ( m — 1) 一 1/ 


(2 In m )-^ 1 (”）+ 0(”— i )， 其中 AU ) 像在习题牝中那样定义，但以 In mm 

logm 来代替 In 2和 lg [注意 ：对于 m = 2 ， 3 ， 4 ， 5 ， 10 ， 100 ， 1000 ， 10 6 ， 我们分别有 
d^inX . 000000172501, . 000041227,. 0002963,. 0008501433 ， . 0062704, . 06797, 

.1525,.348 ]o 
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5.2.2 小节 


51. 设 N = 2m 。 我们可以推广和式 (35 ) 到所有那时它等于 


S 



2 丌 i 



a + ioo 



T(z)(t 2 lN) — z t k dz 



2tcu 


a + i°° 



r(z)N z ^(2z — 


k)dz 


假定 a>U + l)/2 。 所以我们需要知道 zeta 函数的性质。当淡 (- g 且 | W | ^ 
⑺时 ？（ w) = o( I w| 9 + 1 ); 因此如果仅考虑残数，则我们可以随心所欲地向左移动 
积分的边。因子 r(z) 在 0, -1， - 2,… 处有极点， ^(2z - A ) 仅在 z - (k + 1)/2 处有 
一 个极点。在 2 ： = — j 处的残数是 N — ; ( — 1 )乂 ( — 2j — k)l j \ 以及 （（—n )= 


(-l) n B n + J(n + l)o 在 2 =以 + 1)/2 处的残数是各 r(U + l)/2)N u + 1)/2 。 但当 


k = -1 时，在 z = 0 处有一个双重极点；而且 ^(z) = ll(z - 1) + 7+ 0( | z-1 ) ，所 
以在这种情况下 0 点处的残数为 y + +lnN-jy 。 我们因此得到在习题 44 的答案 


中所述的渐近级数。 

52• 置 ： r = z/ti ;则 



(l/6n )(x 2 — x 4 + •••) + •••) 

对于各 种的々 现在可以借助于 > lt k d(t)e~ t2ln 来表达所求的和数。沿用习题 


51 的方法，由于 ？ U ) 2 = 乏我们希望来计算当时 r(z)nl( 2 z 
-k) 2 的残数。在 z 处，这个残数是 n- J (-iy(B 2j + k + 1 K 2 j +k + l)) 2 /j ! ，而在 

z = U + 1 )/ 2 处，这个残数是 n ik+l)l2 r((k + 1 )/ 2 ) ( / + +ln n +j(^((k + 1 )/ 2 ))， 

其中 4 U) = r / (z)/r(z) = H 2 _! - 7 ；于是，例如，当 6 = 0 时对所有 M 有 

2 l n d(t) = 七 \/ Tzn In n + (寻 7 — "^~ln 2 j \/ izn + 去 + 0 (n- M ) 。对于 

S n j ( 2 ” ，把 ( 盖 In n + 蠢 7 + 去 — 2 ) V 丌 / ” + 0 (n~ 1 ) 加到这个量上(参见习 

题 1 . 2 . 7 - 23 和 1 . 2 . 9 - 19 )。 

53 . 设 g = 1 - /? ， 推广习题 36 (c) ， 如果 

+ 2 { 7 !)(p k( i n ~ k + q k p n — k 、 X k 

k >2 J 

则 


工一 + S (IK 1 齡 W)/(1 _ _ 

因此我们可以像以前那样求 B N *C N; B N 中的因子 + 应以 pq 代替。 [4 的渐近性 
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题答案 


质可基本上如正文中那样考察，而且 


T 




r 


np q 


- 1 



np s q 


r^l, 5^0 

卜 3/2 + i 


2 丌 i 


— 3/2 - i 


r(z) n 


(P 



q 


)dz/(l - p 


q 


njhp ) (Inn + 7 — 1 



h ( Pl2h 


h 



d(n)) 



0 ( 1 ) 


其中 


h p 二一 (p\np + qlnq) ， h { p 二 p{\np) 2 



g(ln q) 2 


而且 




n 


这里求和对所有使得 p 
于分析的；但当 p = 今一 ' 



q 


1的复数=¥1进行。后一点集 


q 


</> 


— 2 


时，解为 


Z 




1 ) 


々 Tcf/ln 必 


一 般地似乎是难 

主项 （rzln n)Ih p 


也可以从习题29的解答中所引的 van Emden 的 


般公式得到。对于 



-1 


我们 


有 


503718,相对于 1 M 1/2 &1. 442695 


0 


54.命 C 是半径为 tM + 責^ 的一个圆，于是当⑺时在 C 上的积分变为 

0。 (U N 的渐近形式现在可以用一种新方法即展开 r(n + l)/ru +必 m ) 来导出。 
当/有相当好的特性时，本题的方法可应用于形如 


S 


k 


n 


k 


— l ) 


-k 


f ( k ) 


- 1 


2ni 


： CPjB( n + 1， — z)f( z)dz 


的所有和。后一^公式可在 N . E . Norlund 的 Vorlesungen iiber Differen-zenrechnung 

(柏林： Springer , 1924) ， 103 中找到。） 

55. 以下列程序段代替程序 Q 的行04〜06,后边再接上 ‘STA INPUT + 1，2’（参见 
(27) 之后的注 释）： 


2H ENTA 
INCA 
SRB 
STA 
ENT4 
LDA 
LDX 
CMPA 
JL 

CMPA 

JLE 

CMPX 

JG 


0,2 

0,3 


1 ( 0 : 2 ) 


INPUT, 2 
INPUT, 3 
INPUT, 3 
IF 

工 NPUT,4 
3F 

INPUT, 4 
4F 


rA—a 
rX—c: 


rA- b 


rX：6 



STA 

工 NPUT ，3 

6 < a 


JGE 

5F 



STX 

工 NPUT ，2 



CMPX 

工 NPUT ， 4 

a< b ， c 

5H 

LDA 

工 NPUT ,4 

rA—6 


JGE 

5B 



JMP 

6 F 



LDA 

工 NPUT ， 3 

a < c< 6 

4H 

LDA 

工 NPUT ，3 

b < c^a 


LDX 

工 NPUT ， 4 



LDX 

工 NPUT ,2 



STX 

工 NPUT ， 3 



STX 

工 NPUT ，3 



JMP 

6 F 



JMP 

5F 


5H 

LDX 

工 NPUT ， 4 

< c 

3H 

STX 

INPUT, 2 

c^a^b 


STX 

工 NPUT ， 2 



LDX 

工 NPUT ，4 


6 H 

LDX 

工 NPUT 十 1，2 



STX 

工 NPUT ,3 



STX 

工 NPUT ， 4 



JMP 

6 F 



ENT4 

2,2 


1H 

CMPA 

工 NPUT ，4 



ENTS 

0,3 



并把行 22 的指令改成为 “ STX 工 NPUT +1，2” 
改成 “ENTX 0,2 ;INCX 0,3 ;ENTA 0 ;DIV = 2 = 


O 


如果二进移位不能用，则头 


条指令须 
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这一程序实质上交换 私 +1 和只 


L (/+ r )/2 j 


并对三个记录 R 【， R l + 1 ， R r 进行排序， 


然后应用通常的分划到 R l + 1 


• • • 


上。通过简单地把中间元素放在 rA 中，把馬 


传送到中间元素以前的位置，并且如同它现在这样来使用程序 Q 来节省代码的一 


些行，是吸引人的。但这样 


个方法有坏结果，因为它需要 iV 2 步的阶来对文件 iV 


N -1 …1 进行排序。（这一惊奇的结果，首先是由 D . B.Cddrick 发现的，要见到你才 

能信-试试看 ！） 上边推荐的这一技术，是属于 R . Sedgewick 的，看来避免了这种 

“简单的最坏情况”的异常，而且运行也更快。 


通过这个 


个取中的分划方案，这个算法不考察 K 


N + 1 


，但在步骤 Q 9 中它们可 


能考察 K 


Oo 


56 •通过命: 二 nx n ， u n = ny n ^ 1 ~ (n + 2) y n , v n = nw n + 1 - (n - 5) 


n 


，我们可以解递推式 


n 



x 



” + 2 Tjk =： i(k - 1) (n - k) x k ^i 


由此得岀对于 


n 


> 


m 


， = + 2 — 26 n + 1 + 6 n ) 


例如：对于 72 < m ，命： c n 


S nl ，且设 


0 。则 


对于所有的 n>m ， v n 


0 ,因此 rr — u n ^i~ m- 


+ 1 ° 由 ym + 1 — 12 / 771 ， + 2 


12 /( m + 1 ) ，我们最终求得对于 n > m ， x n 


48 

y 


n 



1)1 m(m + 1) ( m 



2 ) + 


36 




7 


m -l) 1/n 


6 


般地，命 / n 


(12/ (n - 1) (n - 2)) 二 i( 々一 l)(?2- 々 ）:r 々一 ；[;当 


恒等于 0 时对于 n > m 的解是 


X 


n 



l ) 


m 



1 ) f m + 2 一 （ W — 4 ) f m 4 . i 


(( 


m 



l)/m +2 - （ 


m 



3) 兌 


+ 1 


m 


7( 


m 



D( 


m 



2 ) 


7 


n 


对于 n < m ，当 b n 


n 



I 〆 和: 


0 时，这个解是 


X 


-3)(/? - 2) 


n 



(P 


6 )(p 



D( 

12 < 


n 



1 ) 社 1 


+ 


12 

7 (P 



1 )( 


m 



2 )^ 


m 



i - p)^ 


7 - 6 )( 


n 



l ) 


对于 72> m ; 除非当 p = - 1 时，我们有 xj(n 



1 ) 


12 

y 


(+ 1 


+ 2 


i 37 i 12 
+ 49 + 49 


m 



2)m 


n 



i ) 2 , 而且当户 


6 时， + 1 ) 


-y(H n _ 6 




n 



l ) 



12 

49 


1( 


m 



2) 7 - + ^/(n + l) 7 - 


像在习题 21-23 中那样论证，我们发现头一个分划阶段现在对 A 贡献1，对 jB 


贡献 i ， 对 C 贡献 N - 1 ，其中 


如同以前定义，但在做了习题55中的重新安排 之后。 


在这个新的假定之下，我们求得 b 


StN 


6 


-2 


N-s 



N -1 


; 因此上面所 


述的递推式以下列方式 出现: 
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题答案 


对于 N 

< M 的值 


对于 iV > M 的 


bjssl 


N 


对于 iV > M 的解 



An 


(N+l) 


12 


/(M + 2) 


1+ 0(N 


- 6 


Bn 0 

Cn 0 

d n n ~ h n 


(N-4)/5 
N -1 

0 


(C n - 3A n )/5 

(N + 1) (H n+1 - H m + 2 ) + II - 亨 /(M + 

2))+2+ 0(N~ 6 ) 

(N+ 1) (l-yH M+1 /(M + 2) -y/(M + 2)) + 
0(N -6 ) 


E n N(N-1)/4 0 (N+l)(^M-|| + y/(M + 2)) + 0(N~ 6 ) 

类似地，〜=寻(〜+ l )(5 M + 3)/(2 M + 3)(2 M + l ) — 1+ 0( N - 6 )。在习题 55 中 
的程序总共的平均运行时间是 53 jA n + 11 B n + 4 C n + 3 D n + 8 E n + 9 S n + 7 N ; M 

99 

= 9 的选择比 M = 10 的选择还要好些，并产生近似于 10 gNln N + 2.116 N 的平 

均时间 [Acta Lif . 7(1977),336 〜341]。若以 DIV 代替 SRB ， 则运行时间增加 11 A N 
并取 M = 10。 

5.2.3 小节 


1 . 否； 考虑 Ki > K 2 = …的情况。但使用 00 的方法（在算法 S 的紧前边描 
述之)是稳定的。 

2 . 如果我们从较高的下标到较低的下标，来扫描在内存中顺序地存放的一个线 
性表，则这种遍历方法通常都稍微快些，因为判断一个下标是否为 0 通常比起判断 
它是否超过 N 更容易些。（由于同一原因，步骤 S2 的查找从 ； 往下运行到 1 ;但见 
习题 8 !) 

3. ( a ) 对于 N a 2 ''' a N -iai , a x N a 3 -- a N - ia2 ， , '', dia2 ' t , 9 a N - 2 Na N - i ， ai ''' 
a N - X N 等输入，出现排列 waN^No (b) 如同在 1 . 2 . 10 节中所示那样，在步骤 
S 2 的头一次迭代期间，极大值改变的平均次数是 H n -1。 [因此， Bn 可以从等式 1. 
2 .7-(8) 求得]。 

4 . 如果输入是 U ， 2 , …， 川的一 个排列，则在步骤 S 3 中；的次数恰比排列 
中的轮换个数少 1 。（其实，不难证明，步骤 S2 和 S 3 只不过从它的轮换中撤销元素 
^因此 S 3 仅当 ； 是它的轮换中最小元素时才什么也不干）。由等式 1.3. 2-(21 )， 平 
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5.2.3 小节 


均说来，我们可以节省步骤 S 3 的 N -1 次执行中的 H N - 1次。 

于是，在步骤 S 3 之前插入一个额外的判断 “f =7?”是低效的。然而我们可以不 
去判断 i 和7的值，而是稍微地加长 S2 的程序，重复一部分代码，使得如果在查找极 
大值期间初始的猜测&不改变，则决不会遇到 S3 ; 这将使程序 S 稍微快一点。 

5. (N- 1) + (N —3) + …= LN 2 /4Jo 

6 . ( a ) 在步骤 S3 中如果 f 则该步使反序数减少 2 m -1，其中 m 比 + 

诸键码中那些处于民和&之间键码的个数大1;显然 m 不少于上一个步骤 

S 2 中对 B 的贡献。现在应用习题4的观察，把循环同条件 f =7联系起来。 （ b ) 通 
过逐次的交换反序的相邻元素，每个排列均可从 N …21 得到。（以相反的顺序应用 
把排列排成递减次序的交换。）每个这样的操作使 J 减1，并且使 C 变化± 1。因此， 
没有任何排列有 C 的一个值，这个值超过 N …2 1的相应值。[由习题5,不等式 
B < LN 2 /4」 是最好的。] 

7. 姚期智 ， “On Straight Selection Sort ” ，计算机科学技术报告 185( 普林斯顿大 

学， 1988) 证明，方差是 dVi 5 + 0( JV 1 495 log N )， 其中 a = 立〜 0.9129; 他也 


猜测，实际的误差项要小得多。 

8.假定我们已经记住了 maWKi ，…，民^)，则可以在位置民处开始步骤 S2 
的下一次迭代。记住所有这些辅助信息的一个方法是使用一个链接表 
得只要是黑体的，则 K z 是上一个黑体元素；1^ = 0。[我们以某些冗余的比较为 

k 

代价，也可以减少所用的辅助存储。] 

下列的 MIX 程序使用地址修改，使得内循环加快。 rll^ 7 ,rl2 = ^ - 7 ,rI3^z, 
rA = K { o 


01 

02 

03 

04 

05 

06 

07 

08 

09 

10 

11 

12 

13 

14 

15 


START 


1H 


7H 

8H 

6H 


ENT1 N 1 

STZ LINK + 1 1 

JMP 9F 1 

ST1 6F(0 ： 2) N - D 

ENT4 INPUT, 1 N ~ D 

ST4 7F(0 ： 2) N ~ D 

ENT4 LINK, 1 N ~ D 

ST4 8F(0 ： 2) N ~ D 

CMPA INPUT + J,2 A 

JGE * + 4 A 

ST3 LINK + J，2 N + 1 _ C 

ENT3 J ， 2 N + 1 - C 

LDA INPUT, 3 N + I — C 

INC2 1 A 

J2NP 7B A 


J—N 


修改循环中的地址 


[修改地址] 
如果 K t > K k 则转移 

否则 L k — i [修改地址] 

i—k [修改地址] 

k^k + 1 

如果 k ^ j 则转移 
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习题答案 


16 4H 

17 

18 

19 

20 
21 

22 

23 9H 

24 

25 5H 

26 

27 

28 


LDX 

STX 

STA 

DCE1 

ENT2 

LD3 

J3NZ 

ENT3 

ENT2 

DEC2 

LDA 

J2NP 

J1P 



INPUT ，1 
INPUT ，3 

INPUT ，1 

1 

0,3 


N 

N H 

N 氏―以前的 

N j^~j - 1 

N rI 2 —i 


LINK, 3 N i — Li 


5F 


2 



N 如果 f >0 则 6 将在 f 处开始 

C 否则 i ^-1 

c 《将在 2 处开始 

N + l 


INPUT, 3 

IB 

4B 


N + l rA ^- K , 

N + l 如果 k < j 则转移 

D + l 如果 7 >0 则转移 I 


9. N —1+ S N > 々 >2 (U —1)/2 — 1/々）=士(【 )+ iV - H N 。[C 和 D 的平均值 

分别为& + 1 和士；因此这个程序的平均运行时间为 （ i .25 iV 2 + 31.75 N - 

15 H N + 14.5) z /。] 程序 H 要好得多。 

10 . 




12.对于每个分支节点中的 - oo 1次，共 2 W -1 次。 
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5.2.3 小节 


13.如果 + 1 ，则当 j = r 时步骤 H 4 可以转到步骤 H 5。 （除非 K r < K r + 1 ， 

步骤 H 5 什么也不干，这时步骤 H 6 无论如何将转到 H 8)。 为确保在整个算法中 K 
> K r + 1 ，我们可以以，…， K N ) 开始； 在步骤 H 2 中不置 


置 i ^ + 1 — 4 +1 和4 + 广 尺 1; 在 r = l 之后还置只 2 —4 +1 。（这项技巧既不加快 

这个算法也不使程序 H 有任何缩短）。 

14. 当插入一个元素时，给它一个键码，这个键码小于（或大于）所有以前指定的 
键码，以达到一个简单队（或栈，分别地）的效果。 

15. 为了有效起见，下列的解是有一点技巧的，它避免了 3的所有倍数 
[CACM 10(1967),570]。 

P 1 •置/> [ 1 ]— 2 ， ， k —2 ， n —5 ， d ^2 ， r —1 ， t ^25 ，而且在优先队中置 
(25，10,30)。（在这个算法中，>[ 2 ]=第 z 个素数 A = 至今为止找到的素数 个数； 72 
二素数候选者到下个候选者的距离 ；r = 在这个队中元素的个数以= p[r + 
2] 2 ,即我们将对之增加 r 的下一个 n 。 队中项的形式为（〃，^，6>)，其中 p 是 u，v 
= 2夕或的素因子，而且 u + v 不是3的一个倍数。） 

P 2 •设 （ g ， 〆 ，是有最小的头一 '个 分量的队兀素。在队中以 （g + 〆 ，<// - 〆 ， 
9") 代替它。（这表示必须加以排 除的 〆 76的下一倍数）。若72 >9,重复这一步骤 
直到 n ^ q 为止。 

P 3 •如果 n > N ， 则结束本算法。否则，若 n < g ， 则置 6 — 6 + n，n — 

n + d ， d ^~6 - ，并重复这一步骤。 

P 4 •(现在 n — q 不是质数。）如果72 = 纟，则置 r —r + l ， w—>[r + 2]， 纟 — w 2 , 并 
且按照 w mod 3 = 2或 w mod 3 = 1 把 （ z ，2 w ，6 w ) 或 （ z ，4 w ，6 w ) 插入队中。 

P 5 •置 n — n + d ， d —6 - d ， 并返回步骤 P 2。 

于是这个计算开始 如下： 


队的内容 

(25.10.30) 

(35.20.30) (49,28,42) 
(49,28,42)(55,10,30) 

(55.10.30) (77,14,42)(121,22,66) 


找到的质数 

5,7,11,13,17,19,23 

29,31 

37,41,43,47 

53 


如果把队保持为一个堆，则我们可以在 O(N log N log log N ) 步内求岀所有 < N 的 


素数； 这个堆集的长度至多是< v ^的素数的个数。 Eratosthenes 的筛，如同在习题 
4.5.4-8 中实现的那样，是需要相当多随机存取存储的一个 O (N log log N ) 方法。 
7.1 节中讨论了一些更有效的实现。 

16. II .置 K — 有待插入的键码 ; j^n + 1 o 

12 . 置 i ^ ljl 2 j 0 

13. 如果 f =0或，则置 K 广 K 并且终止此算法。 

14 . 置 K 广 K t ，j — i 并返回步骤12。 

[ T . Porter 和 I . Simon 在 J £££ TVans SE _1 ( 1975 ) ，292〜295中证明了，给定一致地 
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习题答案 


随机的数的堆，如果 A „ + 1 表示步骤4被执行的平均次数，则对于77 >1，我们有 A „ 
= Ug 77」+ (1 - n — 1 ) ，其中 72 = ( 1 U / — 2 … ) 2 蕴涵 〆 =(1~ — 2 …) 2 。如 
果 Z = Llg "」，则这个值总是 > A 2 fUH 1 - 2)/(2 z + 1 - 1)，而且总是 < A 2 /< a ， 
其中 a 是 （19) 中的常数。] 

17. 文件12 3通过算法 H 进入堆3 2 1，但通过习题16进入堆3 12。（注 意：后 
一个建立堆的方法有阶为 iV log iV 的最坏 情况； 但是经验测试已表明，在建立堆的 
期间，对于随机输入，步骤2的迭代次数大约少于 2.28 N 。 R . Hayward 和 C . McDi - 
armid . [ J . Algorithms 12(1991) ， 126 〜 153] 已经严格地证明比例常数介于 2.2778 和 
2.2994 之间）。 

18. 删去步骤 H 6, 并以下述步骤代替 H 8: 

H 8' •[向后移动]置 

H 9\ [ K 合适吗？]如果 K ^ K i 或）=/，则置 R 广 R 并返回到 H 2。 否则置 

— 私，并返回 H 8、■ 

这个方法实质上与习题16相同，但堆具有不同的开始位置。对文件的实际修 
改是和算法 H 中一样的。关于这个方法的经验测试表明，在选择阶段每过筛一次， 
Rj ^ R t 出现的次数分别以概率（.837，. 135，. 016) 为（0，1，2)。这个方法使程序 H 

稍微长些，但是把它的渐近速度改进成为 13 N lgN +0( N ) 0 把一个变址寄存器的 
值取半的 MIX 指令在这儿很合意。 

C . J . H . McDiarmid 和 B . A . Reed \ J . Algorithms 10( 1989) ， 352 〜 365 ] 已经证明， 
在建立堆期间这个修改也节省平均 （3^-8) iV 〜 0.232 JV 的比较，其中^在习题27 

的答案中定义。关于对 Floyd 的改进的进一^步分析，请见 I . W egener , Theoretical 
Comp . Sci . 118(1993) ,81 〜98。 

武继刚和朱洪 [/. Comp . Sci . and Tech . 9 (1994) ,261 〜 266] 已经发现，也可使用 
二分查找，使得选择阶段的每个过筛至多涉及 lg N + lglg N 次比较和 lg iV 次移动。 

19. 如同在习题18的修正的过筛算法那样进行，且 K = K N ，Z = 1 和 r = N - l ， 

并在步骤 H 3 中以一个给定的 j 值开始。 

20. 对于和对于某个 g >0, 其二进表示为…〜） 2 的<〜的 

正整数的个数显然为（心― r " M 2 + l + = — 广.心)2。 

21. 设 j = ( c r 〜 c 0 ) 2 是在范围 LiV /2々 + 1 」 =(\ … ~ + 1 ) 2 < j < ( 乂… ~) 2 = 

LiV /2 M 中。则~是对于某个其二进表示形式为 （ cvcaq …〜） 2 的<〜的正 

整数的个数，即是 2 Q<g< / = 2& + 1 -1。 因此大小为 2 k + l ~ l 的非特殊的子树的个 
数为 

lN /2 k ] - lN /2 k + l ] - 1 = l(N - 2 k )/2 k + l j 
[为证明这后一恒等式，以 n =2 和：^ = #/2+ + 1 使用习题 1.2.4-38 中的重复律。] 

22. 在 Z = 1 之前，五种可能性是5 3412,3 5412,4 3512,15432和254 

13。这些可能性的每一种 在/= 2之刖导致二种可能的排列 
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CL \ S ? ^ 1 ^ l 615 ^ 3 ^ 4^2 o 


( a ) 在 B 次迭代之后， 


因此 2 B K 


(b)S 


Llog 2 (N/Z)J 


(INI 


2 J - LN /4 J )+2( LN /4 J 


LN /8 J ) + 3( LN /8 J 


LN /16 J ) + 


攀拳拳 


LN/2J 



LN /4 J 



LN/8J + 


攀参拳 


N - v ( N ) 





42,我们有 2 


N- 1 


Llg 


r 


NLlgNj 


— 2 LlgNj + 1 


个上限在堆的建立阶段是最好的。而且注意这样一点是有趣的，就是有惟一的 


的二进表示中1的个数。又由习题 1.2.4- 
+ 1 +2 0 由定理 H 我们知道，关于 B 的这 

:意这样一点是有趣的，就是有惟一的一个 


包含诸键码丨1，2, 


攀参参 


， N | 的堆，使得在算法 H 的整个选择阶段 K 恒等于1。（例如， 


当 N 


7时，即堆是7 5 6 2 4 3 1 时; 不难从 iV 过渡到 N + 1。）这个堆给出对于堆排 


序的选择阶段 B 的极大值（连同 D 的极大值 LiV /2」- l )， 所以对于整个排序， B 的 
最好的上限是 N - v ( N ) + NLlg N 」-2 Llg N 」 + 1 +2。 


+ 2 


24. Sf =1 Llg 々」 


(N + 1 — 2 n ) 


n 



s 


0<k 〈 n 


k 2 2 k 


( N + l ) n 2 - (2 n - 3)2 n 


- 6 ，其中 72 




LlgiV 」 （参见习题 4.5.2-22); 因此最后过筛的方差是 /? N 


6 )/N - ((N 


n + 2 


— 2 n + 1 


IN 2 


0(l)o 


/ 


((N + l ) n 2 

的标准差为 


(S { ft I 5 € M n I ) 


1/2 


O ( V ^ N ) 


o 


25 .过筛是“均勻”的，而且每个比较 : K ; + 1 有+的概率得出<。在这种情况 


下对于 C 的平均贡献仅仅是对于 A 和 B 的平均贡献之和的 


半，即是 


(2 n - 1)2” — 1 + 


2 


(2 


r ? +1 


—1) 


26 .(a 


10 


25 



2 




9 



2 



2 



1 1 + 2 


2 



2 



2 



+4 



2 



2 + 2 + 3 + 0 + 1 + 1 + 2 + 1 + 2 + 2 + 3 + 1 + 2 + 2)/26 


1189/780〜 1.524 


(b)Z k N ^^(k)-N + fiN/2j-fn + Z^!min(a k - l9 a k 


otk -\~ l )!{ a k — 1))1 N ， 


这里 vU ) 是 




的二进表示中二进位 1 的个数 ，且％ 


(lb 


•6 0 ) 2 o 如果 N 


2 


e 


+ 2 e 2 + 


春 拳 


+ 2^ ，且 q o 〉 


>~>0,则可以证明 SAwU ) 




2 


((^i + 2)2 e i + ( e 2 


+ 4)2 e 2 + 


攀鲁拳 


+ (A + 2 t )2 e t ) + t ~ N 


o 


[借助于 Mellin 转换可以清楚地分析这样一些 


和的渐近性质。参见 Flaiolet ， Grabner ， Kirschenhofer，Prodinger 和 Tichy 9 Theoretical 


Comp . Sci . 123(1994),291 




314] 


27. J * W . Wrench Jr . 已经发现，一般的 Lambert 级数 2 n > ia n : c n /(l - : c n ) 可展幵 


成为 2 N>1 ( S dN a d ) x 


N 


s 


m 


>1 


a 


m 



S 


k>\\ a 


m 



+ 是)工 


km \ m 

) X 


a 


1 和 


a 


n 


的情 况是由 J . H - Lambert 在他的 An/age zur Architectonic ? 2 


(里加， 1771)，§ 875 中引 进的 ； Clausen 在 Creiie 3(1828)，95 中对于 


1 的情况指 


出了他的公式。还有 H . F . Scherk 在 Creiie 9(1832),162 〜163中给出一个证明。当 


a n = n 和 :c = y 时，我们得到关系 
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题答案 



^ 71 

Si 2〃 - 1 


s 

m ^1 


m 


+ 1 \ , 2 - \ ? 
2 m - 1 j (2 m - l ) 2 / 


59488 


这个常数出现于 （ 20 ) 中，其中我们有 


( /? — 2 ) N 和 Ck 


2^~ J a 




2 


N ] 


附带说一下，如果在习题 5.1.1-16 的头一个恒等式中我们置 g 
就可得到有趣的恒等式 


X 


和 2 ：= 




71^1 


X 


1 - x " 


kx k ( 1 — 


是+ 1 


X 


)(1 


X 


是+2 


k^l 


28.节点 A 的儿子是节点从 - 1，36和 



1;父节点是 LU 



1)/3」。类似于程 


序 H 的 


个 MIX 程序花费近似于21 


2 





1(^#〜13.7匕]\/个时间单位。利用习题18 


的思想，这个数降低成为18 


2 



N log 3 N 




11.8 N lg N ， 尽管除以3将增加 


个很大 


的 0( N ) 项 

有关^ 


0 


叉堆进一步的信息 


Okoma , Lecture Notes 


Comp 


88 


(1980),439 〜 451 

30. 假设 n = 


2^ 


1+ r ， 其中^ 


Llg ” 」且 l ^： r ^2 l 


于是 A 


2 m 




m 


0] 和通过 


考虑在 Kl 的位置处过筛之后可以最后在]^ + 1 的位置栖息的级7上的元素个数，有 
对于 


-2 


h 


n ^ r \) 


m 


< S (2 L Dk 


m 


—j) 



2 ^ l h 


n ( 


m 


Z +1) 



rlfi 


n ( m - t) 


因此如果 g 


_ = 我们有 


-2 


g (”十 1) m 〉: 


2 J 


r 


2 j 



n ( 


m 


0 



Sn ( m - t ^ l) 



2 



n{m - t) ^ 



1)) m ^gnm 

m ^0 


而且由此通过归纳法得出 g nm < L n 


n ^ 2 i g 



O 


h 


Nm 


在选择阶段期间平均提升的总数是 = 其中 /i 

是可能的堆的总数(定理 H )。 我们知道 N 1。 另一方面，我们有 


N 


S 


m 


彡0 


一 h 


有的 w 


/ V 1 Sr 二 1( 说 _ k)h Nk ^m — h n l L n 

选择 + 现名 


— h JL 


O 



m 


—k)2 k m 


2 


m 


h /y iJLjv ， 对所 


lg( hjsli L^r ) + 0(1 ) 现在给出 h^jl L]\r )+0(1) 


o 


由习题 23(6)， 为建立一个堆所需比较次数至多是 2 N ; 因此 h N > N \ 12 


2N 


o 


显 


然 L N <(lg N) N ，所以我们有 \ g ( h N l L n )^N lg N - Nig lg N + 0( N ) 0 [J • Algo ¬ 
rithms 15(1993),76 〜100。 ] 

31. ( J . Edighoffer 给出的解， 1981) 设 A 是使得对于 1 < f < tz ， A [2 L 纟/2」 ] < 
A [2/] 和 A [2 UI 2] - l ]> A [2 i - 1] 的 2 tz 个元素的数组；其次我们要求对于 


^ n , A [ 2 z — 1 ] ^ A [ 2 z 


o 


(对于所有的/，这后一条件成立的充要条件是，它对于 
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5.2.3 小节 


n /2< i < n 成立，这是由于堆的结构所致）。这“孪生”的堆包含 2 n 个 元素； 为处理 
奇数个数的元素，我们只需甩幵一个元素到边上。适当修改本小节中其它算法，可 
以用来保持孪生的堆，推出这些细节是有趣的。这一思想由 J . van Leeuwen 和 D . 
Wood 独立地发现并作了进一步的发展 [ Cbmp . J . 36(1993),209 〜216]，他们把这个 
结构称做“区间堆”。 

32. 在 N 个元素的任何堆中，最大的 m = 「 N /21 个元素形成一个子树。其中至 
少有 L / W 2」 个元素必不是该子树的叶，因为 具有& 个叶的一个二叉树至少有 A - 1非 
叶。因此最大的 m 个元素的至少 Lm /2」 个出现在堆的头 LN /2」 个位置中。这些元素 
在达到它们最后的目的地之前必然被提升到根位 置处; 所以由习题 1.2.4 -42,它们 

的移动至少对 B 贡献 Zl ^ LlgA 」 = jmlgm + O ( m )。 因此 B min ( N)>+N lg N 

+ O ( N ) + B m [ n (\_ Nl 2 j ) ，这一结果通过对 N 的归纳法得出 0 [ I . Wegener , Theoretical 
Comp . Sci 118( 1993) ， 81 〜 98 ，定理 5.1 oSchaffer 和 Sedgewick ， 还有 Bollobas、Fenner 

和 Frieze 独立地构造了要求不多于 fiV lg N + 0 (Nlog log N ) 个提升的排列 ； 参见 

J . Algorithms 15(1993),76 〜 100 ;20(1996)，205 〜217。根据习题 30 的结果，这样的 
排列是十分稀少的。] 

33. 设 P 、 Q 指向给定的优 先队; 如同在正文中一样，下列算法使用约定 DIST ( A ) 
= 0,尽管 A 实际上不是一个节点。 

Ml •[初始化]置 R—A 。 

M2 •[表合并]如果 Q = A ，则置 D—DIST(P) 并转到 M 3。如果 P=A 则置 P— 

Q ， D — DIST ( P ) 并转到 M 3。否则如果 KEY ( P )> KEY ( Q ) ，则置 T — RIGHT ( P ) ， 
RIGHT ( P )— R ， R — P ， P—T 并重复步骤 M 2。如果 KEY ( P ) < KEY ( Q ) ，则置 T — 
RIGHT ( Q )， RIGHT ( Q )— R ， R — Q ， Q — T 并重复步骤 M 2。 （这一步骤实质上合 

并给定树的两个“右表”，它暂时把向上的指针插入到诸 RIGHT 字段中。） 

M3 .[完成？]如果 R= A 则结束此 算法; P 指向答案。 

M4. [修正诸 DIST ] 置 Q — RIGHT ( R )。 如果 DIST ( LEFT ( R )) < D ，则置 D—DIST 

( LEFT ( R )) + 1， RIGHT ( R )— LEFT ( R )， LEFT ( R )— P ; 否则置 D—D + 1 ， RIGHT 

(R)—P 。 最后置 DIST(R)—D ， P—R ， R—Q ， 并返回 M 3。 ■ 

34 . 对于整个生成函数 L ( z ) = T ： n ^ 0 lnz n = 的诸部分，以递推式 

m — \ 

L x ( z ) = 2 ：, L m + 1 ( z ) = L m ( z )( L ( z ) - ^ L k ( z )) 

k~\ 

幵始。其中 ( z ) = z 2 + …生成从根到 A 具有最短长度的左倾树 ， Rainer 

Kemp 已经证明 L ( z ) = z + ^~ L ( z ) 2 + 士 S ( z ) 2 ， 而且 a ^0. 25036和心々 

2 . 7494879 。 [ Inf . Proc . Letters 25 ( 1987 )，227 〜 232 ; Random Graphs 87 (1990) , 103 
〜 130 ]。Luis Trabb Pardo 在 1978 年注意到生成函数 G ( z ) = zLU ) 满足漂亮的关 


617 




习题答案 


o 


系 G ( s ：) = 2：+ G ( zG (z)) 

35. 设删去的节点的 DIST 字段是如，并设合并后的子树的 DIST 字段是义。 

如果^ = 4,则我们根本不必向上走。如果则4 =心-1;而且如果我们 
向上 n 级，则 P 的诸祖宗的诸新 DIST 字段必须分别是 d x + 1, + n 0 

如果心<4,则向上的通路只能向左拐 。 

36. 不用一般的优先队，最简单的是使用一个双重链 接表； 每当使用诸节点时， 
就把这些节点移向表的一端，并从另一端删去节点[见 6.1 节中关于“自组织文件” 
的讨论]。 

37. 在一个无穷堆中 ，第々 个最大的元素同等可能地出现在它的更大的祖先的 
左或右子堆中^因此我们可以使用数字查找树理论，在等式 6.3-(13) 的记号下，得 

到 e ( k ) = C k - C & — !通过练习 6.3-28 我们得到 e ( k ) = lg k + //(In 2) + y - a + 

%⑷ + 0{ k~ l )^\gk - .274, 其中 a 在 （19) 中定义，而是 lg 々的一个周期函 
数 [ P . V . PobleteJT 33(1993) ,411 -412] 0 

3 s . m o = 0； m 1 = Ul ; 对于 n > i ， m n = In ! y m 2 ^ x y m n — 2 s 其中々二 

Llg (2 iV /3)」 。 

5.2.4 小节 


1 •以 = … = 4 = 1 ， j = 1 开始。重复地找 min (: c lz ，…，: ^ ) = x ri ，并置 z 广 

1 k r 


r 



+ 1 o (在这种情况下 ，工 i ( m , + 1 ) — 00 的使用是一项决定性的妙 

i 


着 。) 

当々相当大时，最好是像在 5.2.3 小节中所讨论的那样，在适合于重复选择的 
一株树结构中保持键码: c lz ，…，工 kl ，使得在第一次之后每次找到极小值仅仅需要 

I k 

作 Llg U 次比较。其实，这是在一个优先队中“最小者先出”原理的一个典型应用。 
诸键码可以保持作一个堆，而且可以完全避免进一步的讨论请看 5.4.1 小节 。 

2.设 C 是比较的 次数; 我们有 C=m + n ~ S ，其中 S 是在步骤 M 4 或 M 6 中传 
送的元素个数。容易看出对于 + 的概率是 


Qs = 



对于 ； ?>m + n = 0 o 因此 S 的均值是 /^ n = gi + 仍 + … = + 1) + n/( m + 
1) [ 参见习题 3.4.2-5,6] ，而且方差是 = (<?! + 3^2 + 5^3 + •**) _ j^hn ^ rnilm + 

n )/( n + 1)(/2 + 2) + (m + 2n)n/(m + 1) ( m + 2) — ju 2 mn 0 于是 


C = (min min ( m ， n ) ， ave m + 

n — fjL mn , maxm + 72 — 1 ，dev a mn ) 

当 m = n 时，这个平均值首先由 H . Nagler 计算出来， CACM 3(1960)，618 〜 


618 


5.2.4 小节 


620;它渐近于2〃-2+0(77— 1 )，并有^+0(〃 — 1 )的标准离差。于是 C 徘徊地接 
近于它的极大值。 

3. M 2,•如果则转到 M 3 、如果= <，则转到 M 7 、如果 K ,> K - M 

转到 M 5，。 

IVTT •置 K / J — 々 + 1 」— f + l ， j ^/ + l 。 如果 ；> M ， 转到 M 4、 否则 

如果 j > N 转到 M 6/; S 则返回 M 2 r o I 

(对于算法 M 的其它步骤也作了适当的修改。此外，如果我们在这个文件的末尾插 
入人为的键码 K m + 1 = K n + 1 = 〜，则许多特殊情况就会消失。） 

4. 随着时间的推移，岀现在选择树的一个固定的内节点处的元素序列，是通过 
合并出现于该节点的儿子处的元素序列得到的 （5.2. 3节中的这个讨论是以选择最 
大元素为基础的，但是它同样也可以应用于颠倒次序的情况）。所以在树选择中进 
行的操作，实质上和合并中进行的那些操作相同，但它们以不同的序列而且使用不 
同的数据结构来实施。 

习题1中指出了合并和树选择之间的另一个关系。注意，一些单元素文件的 iV 
路合并是一个选择 排序； 请把 ( A ， B ， C ， D ) 的四路合并和先是（八』），（0,0)然后 
( AB ， CD ) 的两路合并作比较。 

5. 在步骤 N 6 中，我们总有 在 N 10 ^, K ; < K ; + 1 < K,o 

6. 2 6 4 10 8 14 12 16 15 11 13 7 9 3 5 1。在一次扫 

描之后我们有1 2 5 6 7 8 13 14 16 15 12 11 10 9 4 3,预期 

的两个下坡消失。这种可能性是由 D . A.Bell 说明的， Cbmp . J . 1(1958),74。类似于 
此的怪例，使我们几乎没有希望来对于算法 N 作一个精细的分析。 

7. 如果 iV > l ， 则为 rig JV 1。 （考虑必须把 p 加倍多少次，直到它>~为止）。 

8. 如果 JV 不是的一个倍数，则在这趟扫描中有一个短路段，而且它总是接 
近于 中间： 设它的长度是 h 我们有，步骤 S 12 处理的是短路段和空路段“合 
并”，或〖= 0的情况；否则，我们实质上有 |： y ,>〜>： yi 。 如果 x p < 

y t 则左边的路段首先穷尽，而且传送了 之后，步骤 S 6 将使我们达到步骤 S 13。 

另一方面，如果则右边将被人为地穷尽，但在步骤 S 3 中 心二 x p 将决不 

< K t \ 于是，在所有的情况下， S 6 将最终地使我们到达 S 13。 

10 . 例如，如果 72 ，则算法可以把方法％ +广_：^ + 7 ^同：^ + 7 „ + 广*：^ —沉+ ^无冲 
突地合并到一个阵列诸位置上。留点心我们就可以进一步利用这个思 

想，使得整个排序仅需要 iv + zkM - 1 个单元。但是这个程序相对于算法 S 来说稍 
微复杂些 [ Comp ./. 1 (1958),75; 也见 L . Lozinskii , Kibornetika 1,3( 1965 ) , 58 ~ 
62] 0 

11. 是的。例如，这可以通过考虑与习题4提岀的树选择的关系看出。但显然 
算法 N 和 S 不是稳定的。 

12. 置 L 0 — 1八— JV +1; 然后对于 户 =1，2,…， iV - 1作下列 工作： 


• 619 


习题答案 


如果 + 1 ，贝 lj 置 Lp — 户+ 1;否则置 - — (p + l)，z — 户。最后置 L t — 

0，, - L ] v + I -Ljv +1 I o 

(保持了稳定性。扫描次数是 「 lgrl , 其中 r 是输入中递增路段的 个数; 5.1.3 节 
中分析了 r 的精确分布。我们可以得出结论•.当使用链接分配时，自然合并比直接 

合并更可取，但使用顺序分配时它是低劣的。） 

13. 对于 N >3 的运行时间是 （11 A + 6 B + 3 B / + 9 C + 2 C 〃 + 4 D + 5 iV + 9) z / ， 其 

中 A 是扫描 次数 ; B = + B 〃是 所实施的子文件合并操作的次数，这里 f 是其中户 

子文件首先被穷尽的合并次数； C = CT + C 〃是 所实施的比较次数，其中 CT 是满足 
K p < K q 的比较的 次数 ; D = IT + D 〃是当 另一个子文件已被穷尽时在诸子文件中剩 

下的元素个数，其中 IT 是属于 g 子文件的这样元素的个数。在表3中，我们有 A = 
4, B / = 6, B // -9, C / = 22, C // = 22, D / = 10^"= 10 o 总共的时间=761“（当像在 

习题 5.2.1-33 中那样进行改进后，可比较的程序 5.2.1 L 只花费 433 z /， 所以我们看 


出当 iV 很小时，合并并不特别有效）。 

算法 L 对诸子文件进行一系列的合并，这些子文件的大小 （ w ， ”），可如下确 
定:设在二进制记号下 iV - 1 = ( b k … 6160 ) 2 。对于（讲，”）= ( , 2 J ) ，有 

(V..~ + i) 2 个“通常的”合并；而且对于 0 ，每当 匕 =1时，对于（讲，"）= (2、 
1+(4^ …心 ) 2 )有“特殊的”合并。例如当 N = 14 时，有六个通常的（1，1)合并，三 

个通常的（2,2)合并，一个通常的(4,4)合并，以及处理大小为（1，1)，（4,2)，（8,6)的 

子文件的特殊的合并。合并大小为 （m，n) 的多重集合 M n 也可通过下列递推关系 
来加以 描述： 

Ml = S ； M 2 k + r = \{2\r)\ tu M 2 k tu M r 对于 0 < r <,2 k 
由此得出，不论输入分布如何，我们有 A = 「 lgiVl，B = iV - 1， CT + D"= 

S/ = o bj2 J (1 + ) ， C" + IT = S/,o b j (1 + 2) ( 士 j + ~ + 1 + … + ~ )); 因此仅仅 B’ ， 


c ' zr 需要进一步分析。 

如果对于算法 L 的输入是随机的，则每个合并操作都满足习题2的条件，而且 
同其它合并的特性无关;所以 b ' c ' it 的分布是每个子文件合并时它们各自的分 


布的卷积。这样的合并的平均值是 B ’ 二 nl(m + nhc ' = mn\{n + 1 ) , D ' = nl(m 

+ 1)。 对于所有有关的 （ m ， n ) 把这些加起来，就得精确的平均值。 

当然，当 N = 2 k 时，我们有最简单的情况』 ■ = C: ve = + C ave ，C + D = 


是 N ， 而且 D ave = 


^ J L 1 (2 k ~ J 2 J /(2 J " 1 + l )) = aN + 0(1)， 其中 〆 




丄 - 2 E —= 1.2644997803484442091913197472554984825577 —可以像在习题 

2 n>l 4" — 1 

5.2.3-27 中那样计算到很高的精确度。这个特殊情况是由 A . Gleason [未发表， 

1956] 和 H . Nagler [ CACM 3(1960)，618 〜 620] 首先分析的。 
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5.2.4 小节 


14•在习题13中置 D 二 B 以使 C 取得极大值。 [ W . Panny 和 H . Prodinger , AI - 
gorithmica 14(1995) ,340〜354已经对算法 L 进行了详细的分析]。 

15. 对于已知 L , 等于 p 或 g 的诸情况，作步骤 L 3, L 4, L 6 的额外的副本。[只 

需简单地更改寄存器的名字，也可作进一步的改进，并且删除内循环中的赋值 s — p 

(或 s — q ) l 例如把行20和行21改变成为 “ LD 3 工 NPUT ，1( L )” 而且以 rI 3 之值为 p ， 
rll 之值为 s , 以及 L s 等于 f 来继续运行。对应于 （ f ， g ， r ) 相对于 （ rll ， rl 2 ， rl 3) 的 

不同排列，以及根据 M 的不同情况，我们可以构作内循环的12个副本，从而把平均 

运行时间减少到 8 NlgN + O ( N )]。 

16. ( 这个结果将比算法 L 稍快; 参见习题5.2.3-28。） 

17. 把新的记录当作长度为1的子文件。如果最小的两个子文件有相同长度， 
即重复地合并之。（得到的排序算法实质上和算法 L 相同，但在不同的相对时间合 
并诸子文件。） 

18. 是的，但它似乎是一项复杂的工件。要找岀的头一个解作用下列巧妙的构 

造。 [ Doida 办 AAadNauA SSS 尺 186(1969)，1256〜 1258] ••设〜把这个文件 
分成为 m + 2个“段” + 2 ，其中 Z m + 2 包含 （N mod rz ) 个记录，而每一 

个其它的段恰包含〃个记录。把 Z w + 1 的诸记录同包含的段进行 交换； 现在这 

个文件有的形式，其中 ZfZ m 中的每一个恰巧包含 n 个排好序的记录， 

而且这里 A 是包含 s 个记录的一个辅助区域，其中的 s 在范围中。 

找出具有最小前导元素的段，而且把整个该段同 A 作 交换； 如果有一个以上的 

段有最小前导元素，则选择有最小尾元素的一个段。（这花费 0 (m + n ) 个操作。) 
然后找出具有次小前导元素和尾元素的段，而且把它同 Z 2 进行交换，等等。最后， 

通过 0( m(m + n )) = 0( N ) 个操作，我们重新安排了 m 个段，使得它们的前导元 
素是有序的。而且，由于对于该文件原来的假定，在 Zr - Zm 中的每个键码现在都 

有少于〃个反序。 

我们利用下列技巧，可以合并 A 和 Z 2: 把 Zi 同 A 的头 n 个元素 A ' 进行 交换; 
然后以通常方式合并 Z 2 和 A ' ，但当它们被输岀时与 ZiZ 2 的元素相交换。例如，如 

则我们有 



段1 

段 2 

辅助区域 

初始值的 内容： 

T 1 To T a 

y\yiy3 

CL \ (22^3 

交换 z 1: 

(2 1 2 以 3 

yiy2y3 

X 1 X^x 

交换 x 1: 

^l a 2 a 3 

yiyiy3 

a 1 X 2^3 

交换 


^iyiy3 

a1 工 2 工 3 

交换:: 



CL i CL 2 ^ 3 

交换 

^iyi ^2 


GL i CL 2 ^ 3 

交换: c 3 : 


y2^3y3 

Ci \ 61 3 <22 


(当辅助区域的第 n 个元素被交换过后，这个合并就总是完 成了； 这个方法一般会打 
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习题答案 


乱辅助记录的原来位置。） 

上述技巧用来合并 A 和 Z 2 , 然后 Z 2 和々，…，乙^和总共需要 O ( mn ) 
= O ( iV ) 个操作。由于没有多于72个反序的元素，这个文件的 Zv ，， Z m 部分已经完 
全被排好序。 

为了最后的“清理”，我们通过在 OU 2 ) = O ( iV ) 步内进行插入来对 R N + 1 _ 2s … 
只 n 排序；这把 s 个最大元素带到区域 A 中。然后利用上述技巧，以及辅助存储区 
域 A (但整个地交换右和左，小于和大于的作用），合并 M …4_ 25 和^ + 1 _ 25 〜 
Rn — s 。 最后，我们通过插入来对 r n + 1 —，.. r n 排序。 

J . Katajainen ， T . Pasanen 和 J . Teuhola 在 Nordic J . Computing 3(1996) ， 27 〜 40 

中讨论了随后的改进。关于现场稳定合并的问题，请见 5.5-3 的答案。 

19. 我们可以把输入的车辆编号，使得它们最后的排列依次为 i 2...2〃；所以 
这实质上是一个排序问题。首先把 2” — 1 辆车移过1个栈，以递减的次序来放置 
它们。然后把它们转移到第〃个栈，使得最小的在顶上。然后使其它 Y - 1 辆车通 
过 72-1 个栈，以递增的顺序放置它们，并使它们停在第〃个栈之前。最后以显然 
的形式把两个序列合并在一起。 

20. 关于进一步的信息，请见 R . E . Tarjan JACM 19(1972) ，341 〜346。 

22 . 参见 Information Processing Letters 2(1973)，127 〜 128。 

23. 这些合并可以通过二叉树表示，这二叉树的所有外节点在级 Llg iV 」 和 
rig iV ] 上。因此比较的极大次数是有 iV 个外节点的一棵二叉树的极小外路径长 
度，即等式 5.3.1-(34) 减去 N - 1，因为 f ( m , n ) = m + n — 1 给出极大值，而且有 
iV -1 次合并。（也参见等式 5.4. 9-(1)。） 

P . Flaiolet 和 M.Golin 在 Acta Informatica 31 (1994) ，679〜696已经给出借助于 

Mellin 转换来研究这样的递推式的渐近性质的通用 技术； 特别是，他们证明，比较的 
平均次数是 N \g N -6 N + d(\g N ) N + 0(1) ，方差是〜 .345 iV ， 其中3是周期为1 
和均值为0的一个连续函数，而且 



1.24815 20420 99653 84890 29565 64329 53240 16127 + 

当 iV — oo 时通过一个正态分布可以很好地逼近比较的 总数； 参见黄显贵和 
Cramer 在 Random Structures and Algorithms 8 (1996) ， 319 〜 336; 11(1997) ， 81 〜 96 

上的补充分析。 



5.2.5 小节 


1. 否。因为基数排序全然无效，除非在头一次扫描之后，分布排序是稳定的。 

(但如同正文最后一段中所提议的那样，所提出的分布排序可用于首先最高位数字 
的基数排序方法中，并且推广基数交换。） 

2. 恰恰相反，它是“反稳定 的”； 具有相同键码的元素以相反的次序出现，因为头 
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5.2.5 小节 


一遍扫描从 i ^ v 到遍历诸记录。（这证明是方便的，因为程序 R 的行28和行20 

把八同0等置 起来； 但是当然没有必要向后进行头一次扫描。） 

3. 如果堆 0 非空，则 BOTM[0] 已经指向头一个 元素； 如果它是空的，则我们置 P 
—LOC(BOTM[0]) 而且过后使 LINK(P) 指向头一个非空堆的底。 

4. 当剩下偶数次扫描时，首先取堆 0( 由顶到底），接着取堆1，…，堆 （ M -1); 这个 
结果相对于至今所考虑的数字来说将是有序的。当剩下奇数次扫描时，首先取第 
M - 1堆，然后取第 M -2 堆，…，第0 堆; 这个结果相对于至今所考察的数字来说将是 
逆序的。（这个规则显然是由 E . H . Friend 首先提出的 [JACM 3 (1956) ，156,165〜 
166] 0 ) 

5. 把行 04 改变成为 “ENT3 7” 并把表 R3SW 和 R5SW 改变成为 


R3SW 


R5SW 


LD2 

KEY ? 1(1 ： 1) 

LD2 

KEY, 1(2 ： 2) 

LD2 

KEY ? 1(3 ： 3) 

LD2 

KEY ? 1(4 ： 4) 

LD2 

KEY ? 1(5 ： 5) 

LD2 

工 NPUT ， 1(1:1) 

LD2 

INPUT ? 1(2 ； 2) 

LD2 

INPUT ? 1(3 ： 3) 

LD1 

工 NPUT ， 1(LINK) 

• 

拳 

參 

( 再重复上一行 6 次 ) 

DEC1 

1 



通过在每处把“3”改成“8”，可以求得新的运行 时间； 对于 p = 8, 它总计为 （11 广 l)iV 
+ 16 pM + 12 p — 4 E + 2。 

6. ( a ) 考虑放置第 N + 1个元素。递推式 

k + 1 M — k 

PM(N + V)k 二 pMN(k + l ) + ■— ~~ pMNk 

等价于所述的公式。 （ b ) 通过对 77 用归纳法可证第 n 次导数满足 g ( M ^ v + u (幻= 

+ 置 之=1，我们求出 (1) = (1 — 

n / M ) ，因为 g M 。（ z ) = 。因此 mean ( g MN ) = (1 - l / M ) N M ， var ( g MN ) = (1- 

2/ M ) iV M ( M - l ) + (1 - 1/ M ) n M - (1-1/ M ) 2 N M 2 o 

(注意，程序 R 中 £ 的生成函数是 

7. 设 R = 基数排序， RX = 基数交换。某些重要的类似性和差 别是: RX 从最高位 
数字进行到最低位，而 R 则从另一条途径进行。这两个方法都通过数字检查来进行排 
序，而不作键码的比较。 RX 总有 M = 2( 但见习题1)。 R 的运行时间几乎总是不变 
的，而 RX 对于数字的分布是敏感的。在两种情况下运行的时间都是 0 (N hg K )， 其 
中 K 是键码的范围，但 RX 的比例常数 较高; 另一方面，当键码按它们的前导数字来说 
是均匀分布时，无论 K 的大小如何， RX 总有 0 (N log iV ) 的平均运行时间。 R 需要链 
接字段而 RX 在“极小的存储”下运行。 R 的内循环更适合于“流水线”计算机。 

8. 在最后的扫描中，诸堆应以另一^个次序被钩在一^起；例如，如果 iVf = 256，则 
堆 （10000000)2 首先来到，然后堆 （10000001)2" •，堆（11111111)2,堆 （00000000 ) 2 , 

堆 (00000001)2 ，…，堆(01111111)2。通过修改算法 H ， 或（在表1中）通过在最后一 
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习题答案 


次扫描时改变存储分配策略，即可更容易地进行挂钩顺序的改变。 

9.如同在习题 5.2.2-33 中那样，我们可以首先把负的键码同正的键码 分开； 或者 
我们可以在头一次扫描时把键码改成补码记号。或者，在最后一次扫描之后，可以把 
正键码同负键码分开，颠倒后者的顺序，但习题 5.2.2-33 的方法已不再能用了。 

11. 若没有头一次扫描，这个方法仍将正确地进行排序，因为（碰巧 ）503 已在 
509之前。若没有头两次扫描，反序数将是1 + 1 + 0 + 0 + 0+1 + 1 + 1 + 0 + 0 = 5。 

12. 在步骤 M 4( 习题 5.2-12) 中交换仏同尺 [ P ] 之后，我们可以比较&同 

K ^。 如果较小，则把它同&_ 2 ，尺卜 3 ，"、作比较，直到求出 K k > Kj 为止。 


然后置（尺, 


+ 1， 


§參參 


,R 


1 ， Rk) 


( R k , R J + i ，…， R 


l 


，而不改变 LINK 字段。设置一 


个人为的键码很方便，它<在这个文件左边的所有其它键码 


14. 如果在习题 5.1.3-20 的意义下，卡片原来的排列需 要读々 次，而且如果对 
于每次扫描我们使用 m 个堆，则必须至少进行 「 lo gw 幻次扫描。（考虑从一个已排 

好序的卡片组到原来的卡片组的逆 过程； 每次扫描至多使读的次数增加 m 的一个 
因子。）给定的排列需要4次递增的读，10次递减 的读； 所以递减的次序需要具有两 
个堆的4次扫描或者具有三个堆的3次扫描。 

反之，这个最优的扫描次数可被 达到； 根据卡片是在第几次被读的，重新把它们 
编号成为0到 A _ 1，并且使用一个基数排序（在基数 m 下最低位数字先开头）。 

[参见 Martin Gardner 的 Sixth Book of Mathematical Games (三 藩市 : W . H . Freeman , 

1971),111 〜 112。] 

15 . 设有 A 次读和 m 个堆。每次扫描时次序都被 颠倒； 如果按一个次序读々 
次，则在相反的次序下读的次数为 w + 1- A 。 极小扫描次数或者是大于等于 log w k 

的最小偶数，或者是大于等于 log w ( 7? + \ ~ k ) 的最小奇数。（反向进行时，在一次扫 

描之后顶多有 m 次递减的读，在两次扫描之后，顶多有 m 2 次递增的读，等等。）这 
个例子可在 min (2,5) =2次扫描中被排成递增次序，在 min (3 ，4) = 3次扫描中被排 
成递减次序，同时仅使用两个堆。 

16. 假定每个串之后跟着一个特殊的空字符，它小于字母表的任何字母。由在一 
个数据块区中链接在一起的所有串开始，实施一个具体左至右的基数排序。然后对于 
々=1，2…修改包含一个以上不同串的每个块区，办法是根据每个串的第 A 个字母，把 
它分成为一些子块区，同时按照它们已被考察的前缀，使这些块区保持有序。当一个 
块区仅有一个项时，或者当它 的第々 个字符为全空（因而它的键码相等），我们可以安 
排避免再对它进行考察。 [ R . Paige 和 R . E . Taiwan，SJCOMP 16 (1987) ，973〜989， 

§2。]这个过程实质上和在 6.3 节中构造一个检索结构是一样的。 Aho ， Hopcrof t 和 

Ullman 的 TTie Design and Analysis of Computer Algorithms ( Addison - Wesley , 1974) ,79 〜 84 

对这个问题给出了以从右到左的基数排序为基础的一个更简单但不大有效的算法。 
正文中所引的 Mcllroy ， Bostic 和 Mcllroy 的方法，更实用和更快。 

17. MacLaren 的方法加快了第二级，但在顶层一级不能使用它，因为它不能计 
算数凡。 
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18 .首先我们证明提示 ：设九 = 丨 i /^ 1)/ GN / U ) d ： r 是当有 CN 个箱时一个键码 
落入箱6的概率。为分布诸记录所需时间是 O ( N )， 而在分布之后剩下的反序的平 

均个数为士 以 1 — a ) n -十 2 )= 士 

因为 p k < BlCN 。 

现在考虑两级分布，且有 cN 个顶层一级的箱子，并设~ = sup |/( x ) | k / cN^x 
<(k + l ) lcN \ 0 于是平均的总共运行时间为 O ( N ) 加上其中尺是 Ma - 
cLaren 方法对于有密度函数/^ (x ) = f((k + x)l cN )/ cNp k 的 N k 个键码进行排序 
所需要的平均时间。通过这个提示，我们有 T k =E 0( b k N k lcNp k ) 浪为 f k ( x ) 是以 
心/6*%为限的。 但 EN k = Np k ，所以 T k = 0( b k lc )。 而且当 N — oo 时，由黎曼可积 

^ k 

性的定义，我们有 N I i / U ) d:r = N 。 

5.3.1 小节 



2 e i — 2 e ? — U (ei — + 2 — k)2 e k ^ 

k 二 2 

2 e i - (2 e i — 1 + ••• + 2 e i'' + 1 + 2 e 0 > 0 

当且仅当对于某个有 n =2 k - 2 J 时，等式成立。[当合并是像在习题 5.2. 
4-23 中那样“由顶向下”完成时，比较的极大次数是 BU )]。 
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习题答案 


3. 当72 >0时，最小键码恰恰出现 A 次的结果数为于是，对于 n >0, 

2 f \ = 2^ jfVh 而且由等式1.2.9-(10)，我们有2尸（幻= 6屮（之）+ 1。 

另一个证明从这样一个事实得 出：即 P „ = 20 o |=| A !， 由于1=1是把”个元 

素划分成 A 个非空部分的方式数，而且这些部分可以以 W 种方式排列。于是，由等 
式 1.2.9-(23)， S 0 O f \//72! = — 二 1/(2 — #)。 

还有另一个证明，或许最有趣，它得 自于： 如果我们以一种稳定的方式，把这些 
元素排成序列，使得当且仅当 K t < K ; 或 （ K ; = i ^ 且/<^)时反居于之前，即可 

得之。在所有尸„个结果当中，如果排列^ 包含々 个升高，则一个给定的安排 

K a ...K a 现在恰恰出现2” 欠； 因此 尸 „ 可以借助于欧拉数 尸„ 二 来表达。 
1 'k f 

当 z = 2 时等式 5.1.3-(20) 确立了所求的结果。 

这个生成函数是由 A. Cayley [Phil. Mag. (4) 18 (1859) ,374〜 378] 在枚举一个不精 

确定义的树类时得到的。也见 P. A. MacMahon , Proc. London Math. Soc. 22 (1891),341 

〜 344; J . Tbuchard , Ami . Soc . Sci，JBruxeWes 53 (1933) ,21 〜31。以及 O . A . Gross，AMM 69 

(1962)，4 〜 8 ;Gross 给岀了有趣的公式 = ' S k ^ k n l 2 1 +k , n ^ l 0 

4. 表 7 K 


2 P ( 




2 


(1 


i cot (i(z — In 2)/2))= 


2 




In 2 



1 


k^i 


In 2 - 2nik 



1 






In 2 



2nik 


产生一个收敛的级数 Pjn\ 


2 (ln2) —” —i + T Jk> M{\n2 + 2mk)~ n ~ l )o 




~ n - 1 




6. S / U )> SU )， 因为诸键码可以全都 不同； 于是我们必须证明 S^nX 
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5.3.1 小节 


su )。 给定一个在不同的键码上花费 SU ) 步的排序算法，我们可以通过定义二分 
支恒同于<分支来消除冗余性，从而构造一般情况的排序算法。当出现一个外部节 
点时，我们知道所有的相等关系，因为有而且对已经 


明显地比较过 K a .: K a . + i 。 

M. Paterson 发现，如果键码的多重集是（〜，…， n w ) ，则比较的次数可减少成为 
77 lg n - S n 3 lg + Oin ); 见 SJCOMP 5 (1976),2 。 通过如 Munro 和 Raman 在 

Lecture Notes in Comp.Sci. , 519 (1991) ,473 〜 480 所建议的那样修改堆排序来处 

理相等的键码，则不用很多的辅助存储就几乎能达到这个下限了。 

7.见图 A -1。 比较的平均次数是 

(2 + 3 + 3 + 2 + 3 + 3 + 3 + 2-3 + 3 + 3 + 3 + 2 + 3 + 3 + 2)/16 = 2 


8 . 见图 A -2。 比较的平均次数是3 g 。 

9. 如果所有的键码是相等的，则我们至少需要〃 -1 次比较才能发现所有键码 
相等这一事实。反之， n-1 次就足够了，因为在把 Ki 同所有其它键码作了比较之 

后，我们总能导出最后的排序。 _ 

10. 设 / U ) 为所求的函数，并设 gU ) 是当 k > o 和元素中恰有々个元素有已 

知值 (0 或1时），为对 n + k 个元素进行排序所需平均比较次数。于是，/(0) = 

/(l) = g(0)=0,g(l) = l;/(77) = l + y/(n - 1) + ~2),g(n) = 1 + 

min( g(n — \ ) g{n — 1) + g{n — 2)) = 1 + 了 g*(n — 1) + g (n —2 )， 其中 

77 >2。（因此最好的策略是每当可能时，就比较两个未知的元素）。由此得出，对于 


n^2J(n)~ g (n ) 二 |(/U _ 1 ) - g(n ~ 1)), 以及对于 n>0, g(n ) = 





) 。因此答案是对于 




n — I 


(这个精确公式可以同信息论下限 log 3 (2 n - 1)^0.630977 作比较。） 

11.二叉插人证明，对于 n > m ， S w (?0< B (7? i ) + ( rz - m )「 lg ( m + l )1。 另一 


方面，^(77)>「42广= 1 1=>!1，而且这渐近地等于”匕 m + 0 ((( m ~ l ) lm ) n ); 
(参见等式 1.2. 6〜（53))。 

12. ( a ) 如果没有冗余的比较，则当实际上相等的键码第一次被比较时，我们可 
以任意地指定一个次序，因为不能从以前所做的比较中导出次序。 （ b ) 假定这株树 
对每个0和1的序列强 排序； 我们将证明，它对 U ，2, … ，刹的 每个排列也强排序。 
假若不然，于是有一个排列，对于这个排列，它宣称然而事实 
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5.3.1 小节 


上对于某个 i ， 有 K a > K a 。用0代替所有的 < K a 的元素，用1代替所有的 

^ ^ + 1 乂 ； 

元素； 由假设，当我们采取导致 K a 的路径时，这个方法又应该能进 

12 n 

行排序，矛盾。 

13. 如果 n 为偶数，则 F ( n )- F(n —1) = 1 + F ( LW 2」）- F ( Ln /2」— 1)，所以 

我们必须证明叫―由于叫-丨耐叫⑴，这是明显的。如果 n 为奇 
数，则 F ( n )- F ( n - l ) = G ([ nl 2 V ~ G(L n /2」） ， 所以我们必须证明4-1<[^/21< 
心；由于 4 - 1 = r t^/21 ， 这是显然的。 

14. 由习题 1.2.4 - 42,和数为” — (wi + …+ w ; ) ，其中 w ；< n ^ 


U ) 


o 


后一个和数是 


U ) 


jl2] - 1 


o 


因此 F (?0 可表达成 


71 




4 


n 


(6n)」/3 





— 2 


lg (6 


n 


(以及许多其它方式) 


o 


15 . 如果1§ 




+ (9,则 F ( n ) = n\g n - (3- lg 3 )n + n(d + 1 ~2 6 ) + 


0( log n ) o 如果 rig n 1 = lg 72 + (9, 则 B ( n ) = nig n ~ n ^ n (d + 1 - 2^) + 0( log n ) 0 
[注意 lg ? 2 ! = "lg ” - nl (In 2) + 0 (log n ); l/(In 2)^1.443;3 - lg 3 〜 1.415。] 

17.~<%<~ + 1 的情况数为 , 


(m 

ffff a 3 < b q < a J + l 的情况数是 



\ n - q ) \ q - 1 ) 

18 .否，因为我们仅仅考虑在每个比较之下树的效率较低的分支。更有效的分 
支之一可以证明是更难于处理的。 

20. 设 L 是出现有外节点的极大的级，而设 Z 是极小的这样的级。如果 L >1 
+ 2，则我们可 以从级 L 撤销两个节点，并把它们放置在级 Z 处的一个节点之下；这 
使外部路径长度减少 I + 2 L - (L - 1 + 2( I + 1)) = L - I - 1>1 0 反之，如果 L </ 

+ 1，就设在级/上有6个外节点而在级 Z + 1 上有 N - k 个外节点，这里0< A < iV 。 

由习题2.3.4.5-3，々2 — / + (]\[—々）2 — / — 1 = 1 ; 因此，]\[ + 々=2 / + 1 。不等式 2 1 < N < 

2 / + i 现在表明 / = LlgiV 」 ； 这定 义了々 并给出外部路径长度（34)。 

21. 设 r (: c ) 是 x 的右子树的根。所有子树有极小的高度当且仅当对于所有的 
: c，「lg t ( l(x ) ) l^r lg t ( x )~\ - 1 和 rig 〆 r ( x )) l^r lg t { x )~\-\ o 头一个条件等价 

于 2 KZ ( X )) --〖（ X )，而第二个条件等价于 t ( x )-2 t ( L ( x)X 

2 [ lgtU )1 - t ( x) Q 




629 



习题答案 


22 •由习题 20, 四个条件 Llg t { r { x ))\> V\g t { x )\ - 1 和 

rig ，（/“））], rig Kr ( x )) l<rig Kx )1 _l 是必要和充分的。如同在习题 21 中那 
样论证，我们可以证明它们等价于所述条件。 [Martin Sandelius，AMM 68 (1961)， 
133〜144]。 关于它的一个推广见习题 33。 

23. 多重表插入假设，诸键码被均勻地分布在一个已知的范围内，所以它不是满 
足本节中所考虑的限制的“纯粹比较”的方法。 

24. 首先如同对五个元素排序那样进行，直到进行了五次比较，我们达到 （6) 中 
的配置之一之后为止。在头三种情况下，再用两次比较完成对五个元素的排序，然 
后插入第六个元素/。在其它情况下，首先比较/: 把/插入到主链中，然后插人 

c o [ Pi card , Til eorie des Questionnaires , p . 116 0 ] 

25 •由于 N = 7! = 5040 和 g = 13, 在级 12 上将有 8192-5040 = 3052 个外节点， 
且在级 13 个有 5040- 3152 = 1888 个外节点。 

26 . L . Kollar[Lecture Notes in Comp . Sci . ,233(1986) ， 449 〜 457] 已经介绍了一 

个杰出的方法来论证，这个最优的方法有 62416 的外部路径长度。 

27. 



是用两次比较识别两个最经常的排列的惟一方式，不过头一次比较产生 .27/. 73的 
分裂。 

28. Lun Kwan 已经构造了一个其平均运行时间为 38. 925 w 的873行的程序。 
它的极大运行时间为 43 z / ; 后者看来是最优的，因为它是7次比较，7次测试，6次装 
入，5次存储的时间。 

29. 我们必须至少作 SU ) 次比较，因为不可能知道一个排列是偶的还是奇的， 
除非已经作了足够的比较来惟一地确定它。因为我们可以假定已经作了足够的比 
较，来把问题缩小到取 决于七 是否小于~(对于某个 f 和的两种可 能性； 这两种 

可能性之一是偶的，另一种是奇的。[另一方面，对于这个问题有一个 OU ) 算法， 
这个算法简单地计算轮换的数目，而且全然不使用 比较； 见习题 5.2. 2-2。] 

30. 由高度为 S ( n ) 的最优比较树开始，从顶到底，重复地在标号为的节点 

的右子树中交换把这个结果解释为一株比较-交换树，每个终端节点定义一 

个惟一的排列，这个排列可以通过至多 n -1 次另外的比较-交换来进行排序（由习 
题 5.2. 2-2) 0 

[比较-交换树的思想是由 T . N . Hibbard 给出的。] 
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5.3.2 小节 


31.至少需要8个，因为高度为7的每一株树在4步之后，将在某个分支（或它 



的对偶）产生配置，其中 a ^ Lo 这个配置不能用3次另外的比较/交换操作来完成排 
序。另一方面，下列树达到了所希望的界（或许也是极小的平 均比较 /交换次 数）： 



33.可应用于阶为： r 和分辨率为1的任何树的简单操作，也可被应用于产生另 
一株这样的树，即其加权路径长度不很大，其中对于某个 L 所有外节点位于级 々和 
k ~ l 中，而且至多有一个外节点是非整数。而且，如果非整数节点存在，它位于级々 
上。任何这样的树的加权路径长度都有所述的值，因此这必定是极小的。反之，如 
果在任何实值查找树中 （ iv ) 和（ V )成立，则通过归纳法可能证明，加权路径长度有所 
述的值，因为借助于根的两个子树的加权路径长度，存在有一株树的加权路径长度 
的简单公式。 

36. [Mat Zametki 4 (1968) ，511〜 518] 关于这个问题的进展的综述，以及关于 
我们总可以得到的下式 

1 < T ( G 1 )/ T ( G 2 ) < p 

的一^个证明，其中常数 p 略小于8/3，参见 S . Felsner 和 W . T . Trotter , Combinatorics , 
Paul Erdos is Eighty 1 (1993) ， 145 〜157。 

5.3.2 小节 

1. S(m + nXS (? n ) + S ( n ) M (?n , n ) 0 

2 . 在对称次序下为第 A 个的内节点对应于比较 A〆 Bp 

3. 策略5(1，/)不比策略焱（1，/ + 1)更好，而策略化（1，/)不比 AXl ，/ - 1) 更 
好； 因此我们必须解递推式 
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习题答案 

• M • (1 ， n ) = min max ( max (1 + . M . (1 y l - 1)), max (1 + . M . (1 j n - /))) 

1 ^ ^ 77 1 ^ 

,n > 1;. M .(1，0) = 0 

不难验证 「 lg ( n + 1)1 满足这个递推式。 

4 •否。 [ C . Christen,FOGS 19 (1978) ,259 〜 266] 

6 . 当户 f + 1 时，除去 z <2 的情况外，可以使用策略 AD ’ + 1)。而当 

+ 2时，我们可以使用策略 A ( z ， z + 2) 。 _ 

7. 为了在 n 个其它元素当中插入 A + m 个元素，可独立地 插入々 个元素及 m 

个元素。（当 々和 m 很大时，本过程尚可改进，见习题 19) 。 

8,9.在下列图式中，/:)表示比较 A z . 表示在 M (/， j ) 步内把元素 f 同元 

素 j 合并，而 A 表示在三步内将型式二二或&排序。 



M i4 +1 M 13+2 
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5.3.2 小节 


11. 如同在提示中那样 ，设” =仏。我们可以假定〖>6。不失一般性，可设 A 2 : 
巧为头一次比较。如果—，则结果 A 2 < 巧将需要> 〖个另加的步骤。如果 j 

，则结果 A 2 < 巧将不成问题，所以仅仅需要研究 A 2 > 巧的情况，而且当 j = 
Am 时我们得到最多的信息。如果，=2^ + 1，则可能要把 A 2 同 >4的 

~ I 

- 1 个兀素合并在一起，而把 Ai 同仏-；1个其它元素合并在一起，但这要求々+ 

(々+1) = ^个另外的步骤。另 一 ^方面，如果 _ 1，则我们可以把 A 2 同 

个兀素合并在一起，然后在 （A - 1) + (^ + 1)个另外的步骤内，把 Ai 同 w 个元素合 
并在一起，因此 M (2, g t - l)^：t o 

々的 情况要困难 得多； 注意 a - h >2〃 2 。 在乂 2 >仏之后，假设我们 

- 1 

比较 A { ： B J 0 如果 j〉 2 * — 1 ， 则结果 A l < B J 要求々+ U -1) 个另外的比较（太多）。 
如果 j<2 w ， 则我们可以如同以前一样论证7 I2* — 1 给出最多的信息。在 Ai> 

之后，下一个同的比较也可以同进行，然后同 B 2 k ~ l + 2 k ~ 2 + 2 k ~ 3 it ； 
因为2卜 i+2 卜 2 + 2卜 3 >a — 】，我们就剩下把 |Ai，A 2 丨同”- (2 卜 1 +2卜 2 + 2卜 3 ) 
个元素合并在一起了。当然，我们不必马上进行同 Ai 的任何 比较； 而代之以比较 
A 2 :氏 + 1 _ ; 。如果 j<2〃 3 , 则考虑 A 2 < 凡 + 1 _ ; 的情况，如果 j>2^ 3 , 则我们考虑 
A 2 > B n + 1 ^ j0 后一种情况要求至少再有 U-2) + U + 1) 个步骤。继续进行，我们 
发现仅有的可能有成果的路线是 A 2 > B gt _^ A 2 < B n + l ^ 2 k ~\ A 1 > B 2 k -^ A i > 

B 2 h + 广广 i + 2 h + 2 h ， 但是在这种情况下我们恰恰剩下了 &_ 5 个元素!反 
之，如果 w = 仏 - 1，则这路线是行得通的 。 [Acta Informatics ( 1971 ) ，145〜158。 ] 

12. 头一个比较必须是对于 ， a .. X k 或者（对称地）对于 

X n - k o 在前一种情况下，如果 a < X k 要我们继续做 - l，j) 次另外的 比较； 结 

果&要我们继续解决《</?， y„ —y ,4 + 1 ，/?> ; 的排序问 
题，其中 Y r = X r — k 。 

13. [Computers in Number Theory (New York： Academic Press，1971 )，263 〜 

269。] 

14. [SICOMP 9 (1980),298 〜320。对于 M(4, rz) 的完全的解不久之后就由 J. 

Schulte M6nting 得到了。他还猜测对于 M(5 ， rz) 的解，在 TTieor . 14 (1981),19 〜 
37上。] 

15. 将 m 加倍直到它超过 n 为止。这需要 Llg(〃/m)」+ l 次加倍。 

16. 当它是一个以上时，为除去 （2 ，8)，（3,6)， （3 ，8) (3,10)， （4 ，8)，（4,10)，（5, 
9)，（5，10)之外的所有的 U，”）。 


17 . 假定 m^：n 且设 t — lg ( n / m ) — d 0 则 lg ( ) > lg n m — \g m \^ mlg n 

\ m I 

-(mlg + = + + l = + L2~m 」 >H( m ， ” ) + ^ 

f f t 

- 2 d m^H ( m ，”）— m 。 （对于 不等式 rn !< rn w 2 1 ~ m 由々 （m — 々 ）< 
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题答案 


( m /2) 2 推岀。） 

19. 首先合并，…， AJ 和 | B 2 ， B 4 , …， B 2 U /2 」 U 然后对于 l </<「 n /2 l , 我们必 
须把诸奇元素插入到诸 A 的〜 当中，其中<^ + <22 +…+ 后一操作 
对于每个/至多 需要％ 个操作，所以至多 m 次另外的比较就可完成这个工作。 

20. 应用（12)。 

22. R . Michael Tanner [ S/COMP 7 ( 1978) ， 18 〜 38] 已经证明，一个“分离插入” 

算法平均至多作 1.06 lg ( m ) 次比较 。 [L . Kollar[Computers and Artificial Int . 

\ m i 

5 (1986),335 〜 344] 已经研究了算法 H 的平均特性。 

23. 对手保持一个其元素％开始时全为1的 n X ^矩阵 X 。当这个算法问及是 

否 A z = 马时 ，对手置％成为0。回答“否”，除非 X 的永久式刚刚变成0 了。在后 

一 情况下，对手回答“是”（这是必须的，免得此算法立即结束！），并从 X 删去行 f 和 
列得到的（〃- 1) X (72 - 1) 矩阵将有一 '个非 0的永久式。对手继续照此办理，直 
到只剩下 0 X 0 矩阵。 

如果要变成0,我们可以重新安排诸行与列使得 f = 1并且使此矩阵的对角 

线上全都为1，但当1时它的永久式仍变成0;这时对于所有的々>1，我们必定 

有 x ik x k[ = 0 o 由此得岀，当对手第一次回答“是”时至少已删去〃个0,而当第二次 

回答“是”时已删去 72- 1个0,等等。仅仅在对非冗余的问题接受了 72 个“是”的回 
答之后，以及在提岀了至少77 + (M - 1) +…+ 1个问题之后，这个算法才会结束 
\JACM 19 (1972),649 〜659]。类似的论证表明，当 I A I | B | 时需要 n + 

(72 - 1) +…+ (72 - + 1) 个问题才能确定 

24. 粗糙的预备性合并需要至多〃 7 + g -1 次比较，而且随继的插入每个至多需 
要〖次。这些上限不可能减少。因此极大值和算法 H 的一样（参见（19))。 

25. —般问题和其中每个 为 0或1且 x = +的 特殊情况一样困难。于是每个 

比较等价于考察二进位 Xy ， 而且我们要通过考察最少的二进位来确定整个矩阵。 
如果我们置％ = [乂,>艮 + 1 _,]，则任何合并问题 （1) 对应于这样一个 0-1 矩阵。 
( N.Linial 和 M . Saks . Algorithms 6 ( 1985 )，86〜103上把这个发现归功于 J . 
Shearer ， 一个类似的结果把查找同关于任何偏序的排序关连起来。） 

5.3.3 小节 

1. 游戏者11失利于05,所以知道13比05,11,12要差。 

2. 设： r 是第〖个最大者，且 S 是使得所做比较不足以证明1 或^<1的所 
有元素3；的集合。存在同所作的所有比较相一致的一些排列，其中 S 的所有元素都 
小于: r ; 因为我们可以约定 S 的所有元素都小于 x 并把得到的偏序嵌入到一个线性 
序当中。类似地存在一些一致的排列，其中 S 的所有元素都大于 x 。 因此我们不知 
道 x 的秩，除非 S 是空的。 


3. 


个对手可以认为头一个比较的失利者是所有游戏者当中最差的 


o 


4.假设最大的 


- 1 个兀素是 | ai , ••• , a , _ ! 


同这个假定相一致，为确定最大 


的 


个元素的比较树中的任何通路，必定至少包括 n 


个比较以确定剩下的 n 



1个元素的最大者。这样的通路至少有 n 


个。因此，对于最大的 


- 1个元素的 n 


一 1 


t 个二叉选择点，所以它们至少有 
种选择的每一个必定出现在这树的 


至少 2 n 


个叶上。 


5.事实上，由习题2, W , U )< V , U ) + S ( t - l ) 


o 



6•命 g ( li ， Z 2 ，…， Z 


4 +2 m<N 时， / = 


m 


m 


2 



rig(2 / i + 2 / 2 + 




+ 2^ )] ，并假定当 Z : 



h + 



以假定 


>1 


m 


o 


我们将证明，当 M … L + 2 m 
只有几种可能的方法来作头一次 比较: 


+ Z ," + 2 m = N 时，/ = g 。可 


策略 A(j j )， 对于比较组 


的最大元素和组 A 的最大元素。这给出了关 


系 


f(h ， 


， X 1 



g(li ， … ， lj-i ， 



J+i 


， • • • ， -1 ， / 


是 + 1 


，…人） 


gU\， …， D 


/ ， 4 + 1 ， • ，/” z ) 


策略对于4>0,比较组 j 的最大元素 同组々 的小元素之一。这给出 


关系 


f(h ， … ，/ m ) < 1 



max 


a ，/?) 




其中 


a = 客 （ /i ，…， — 1 ， 6 + 1 ， 


• • • 


，/ m •，/ m ) — 



…， 4-1，4 — 1，4+1，…， 4) > g ( h ， …“ 


m 


一 1 


策略 c ( j ，々）， 对于 7< a ， A > o ,4> o , 比较取自组 j 的一个小元素同取自组 a 


的一个小元素。对应的关系是 


f(l \ ，…， / m ) < 1 



g(l 


• • • 


，4— i ，4 — l ，4+ i ，…人 ）> g ( h ， …“ 


m 


通过对于所有这些策 



值，即求出/(/!， 


，4) 的值； 因此 


/( ，…， I )^ g ( h ，…， l m ) 。当 m > 1 时，策略 A ( m — 1 ， m ) 表明 f ( j \， …， L m X 

勢 

G ，…， O ， 因为当 > l rn 时， / i ，…， - i ， I )=《（/ i ，…， l m - i ， 

(证 明：当 M 是 2 6 的一个正倍数时，对于有 「 lg(M + 2 fl )1 =「 lg(M + 
2 6 )1)。当 m = l 时，使用策略 C ( l , l)o 

[ S . S . Kislitsyn 的论文确定最优的策略 A(m - 1 ， m ) 并以封闭的形式求岀 
/(/，/，•••，/)的值;/的一般公式和这个简化了的证明是 Floyd 于1970年发现的。] 

7.对于 j >1， 如果 j + l 在 c /中 ，则 q 是1加上为选择 〆 的次一个最大元素所 

需要的比较数。如果 j + 1在 ，中， 则情况 类似； 而且 q 总为0,因为这树在端点处 


的样子总是相同的。 

8.换言之，是否存在一株具有〃个外节点的扩充的二叉树，使得从根到 Z -1 个 
最远的内节点的距离之和，小于完备的二叉树的相应的和？回答是否，因为不难证 
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习题答案 


明，对于所有的 a ，/ iU ) 的第々个最大的元素至少是 LlgU -々）」。 

9.( 所有路径都使用六次比较，但这个过程对于％(5)不是最优的。) 



10. (通过使用反复尝试法凭手工找出，并且使用习题6来帮助找出有成果的路 

线。） 



m 匕 ei 匕 iiu m 6 L! 
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11 .参见 information Processing Letters 3 (1974),8 〜12。 

12 .在拋弃了以 1 ，又 2 ，又 3 ，又 4 丨的最小者之后，我们有配置 




加上 


71 


— 3 个 


孤立的 元素； 这些当中的第三个最大者可以在 V 3 (^ -1) -1 个另外的步骤之后求 
得 。 

13.在求得头 /U) 个元素的中间元素，比如说&之后，把它同其它每个元素进 
行 比较； 对于某个I这把诸元素分成近乎 nl 2 -k 个小于 的和 n/2 +A 个大于 
的两部分，剩下的是求较大的集合当中第 I 々个最大或最小的元素，这需要 n/2 + 


O ( | ^ | log n ) 次另外的比较。 

0( l / V~n ) + 0 (nlV f ( n )) 0 



的平均值（考虑诸点一致地分布于 [0 


1] 中）是 


设 TU) 是当 f(n 


n 2/3 时的平均比 较数； 则： T( 


71 


71 




T ( n 2/3 )- n 2/3 



n 


/2+0( tz 2/3 )， 由此得岀结果。 


注意到这样一点是有趣的，即当 W 


13 


5时，这个方法平均仅需要5 g 次比较，比 


习题9的树还稍好些。 


14. 


般地说，由于习题2,通过求，…，^丨中的第〖个最大者，并把它同 


尤作 比较，可以在 U t ( nXV t (n 


1) 



1次比较中求出第 


个最大者。（对于更 


大的、， Kirkpatrick 实际上证明 （12) 是 U t (n + 1) 


1 的下限。 J.WJohn,SICOMP 


17 (1988) ，640〜647发现了对于 R(n) 的 




个改进了的下限。) 


15. minU ， n + 1 - 〖）。假定+ 1 _〖，如果当头〖个字被读入时我们不把它 
们全部保存起来，则由于尚未知随后的值，我们可能忘记第〖个最大者。反之“个 


单元已经足够了，因为我们可把新输入的元素同以前的第 
当且仅当寄存器中的值是更大者时把它存起来。 


个最大元素进行比较， 


16.这个算法由 ( a ， b ， c ， d ) 


n ，0,0,0) 开始并以 （0，l，l，n 


2) 终止，如果对 


手避免“岀人意外”的结果，则在每次比较之后，惟一可能的转换是从 U，6，c，d) 到 

本身或者到 


(a - 2,6 + 1, c 



1 ， d ) ， 


( a — 1 yb yC 



l，d) 或 （a — l，6 + l，c，d)， 


— l ， c，d + l )， 
((2,6，C — l，d + l )， 


如果 a >2 ； 
如果 a ^1; 
如果 b >2； 
如果 c ^2 o 


由此得出，为了从 （(2,6，c，d") 得到 （0，1，1，(2 + 6 + c + d - 2)， 需要 




2 


a 



+ 6 + c 一 


2 次比较。[参考文献 CACM 15 (1972)，462 〜464。在 FOGS 16 (1975) ，71 〜74中， 

Pohl 证明： 这个算法也使平均的比较次数取极小值 ] 。 

17. 首先对于最大者使用（6)，然后对于最小者使用（6)，注意其中有 Ln/2」 次比 
较对两者是公共的。 

18. 对于所有充分大的 n, V,(n)<18n-151o 

21.步骤0.构造大小为 Y 和2&1 + 1 的两棵淘汰树。 
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习题答案 


步骤厂对于 “ （这时我们输出了最大的 7-1 个元素。剩下的元素，连 
同每个等于-%的一组虚拟的占位者一起，现在出现在两棵淘汰树 A 和 B 中，其中 
A 有2+个叶，而 B 有 Y — 个。）设 a 是 A 的冠军，并且假定 a 已经击败《()，〜，•••， 

an ，其中 a ! 是2 ! 个元素的冠军。类似地，设6和~，心 — 1 是 B 的冠军 

和次冠军。如果 7 =〖，则输出 max ( a ，6) 并停止。否则，通过引进〜个虚拟占 
位者在 B 的底部，而“增长”另一个级。这些虚拟占位者每一个在他们的首一轮中都 
已输给 B 的选手。（我们的策略将是：如果可能，通过把 B 和包含 a 0 ， ai ， …， a k — t + J 

的 A 的子树 A ' 交换，而把 B 合并到 A ;注意 A ' ，像新近被扩大的 B —样，是有 
2 〃/ + ; + 1 个 叶的一 个淘汰 树）。 比较 ^ 和々_ / + ; + 1 ，然后比较其胜者和 a k -… + 2 ，等 

等，直到找到 c = max (6 ，q — —丨，…，〜—丨）为止。情况 l ，6< c : 输出 a 并把 B 同 

A ' 交换。情况 2,6 = c 和输岀 a 并交换 B 和 A 、 情况 3,6 = c 和6>«:输出 

b 0 在处理了这三种情况之后留给我们的是（可能是新的）淘汰树 A 和 B ， 其中 B 的 

冠军刚刚被输岀。 从 B 中删去该元素并以 - 〜代之，作任何必要的比较来恢复锦 

标淘汰结构（如同在树选择中那样）。这就完成了步骤> 

步骤0做 2 +-l + 2〃 h - l 个比较，而步骤〖作1次。步骤1，2,…，〖-1各作 

至多 6-1 次比较。但情况2除外，那时可能是6次。但每当情况2出现时，当下次 

是情况1或情况2时我们保留一次比较，因为过后将是 —⑺。 因此步骤1到^ - 

1总共至多作 U - l)U -1) + 1 次比较。 

由习题3,当时，对于所有；7<2+ +2 A + 1 ' 我们有 W , U)<n + U - 

1 )U - 1)。如果 Z — 2,习题4指岀 W t ( n)>n - t + 「 lg (2々 +，-2)匕1，如 

果 它是” —Z + U — 1 U + 1。 因此当时，对于 / + Z — 2<77<2" + 

2+ + 1 — S 这个方法是最优的。（如果〖很大，对于 n 的若干较小的值也一样。） 

当+2^ + 1_/ +〖 - 2和 k »3 时，当在步骤1，…，〖 - 2 的末尾重新构造 

B 时，使用一个保留的元素而不使用-⑺的一个类似的方法（见 （11) 的证明），可证 
明 V t (nXn + (t-l)(k~l)o [参见 /.Afeoridims 5 (1984) ，557〜578。] 

22. 一 般地说，当2〜2&<；7 + 2 - t <：(2 r + l)-2 k 和，时，以大小为方 
的 Z + 1 个淘汰树开始的这一过程，将产生比 （11) 少 LU -1)/2」次比较，因为在 （ ii ) 中 

用来求极小的这许多比较在 （ iii ) 中可被“重用”。 

23. 按照 （15) ，当 oo 时，量 V r „/ 2i ( ” ）/n 以2为下限；但 D . Dor 和 U . Zwick 

已经证明，实际的下限严格地大于2,而上限小于上限 2. 942 [SICOMF 28 (1999)， 
1722〜1758 ； SIAMJ . Disc . Math . 14(2001 ),312 - 325 ] 0 他们还证明 了一个渐近的 

上限 

V a „( n ) < (1 + alg 士 + O (a log log ^ 

当 a 很小时，它离 （15) 不是太远 [Combinaforica 16 ( 19%) ，41 〜 58] 。 

24. 由等式（6)，由于 W , ( 77 ) = 77 + O ( ^ log 77 )，因此当时，提示中的 
命题肯定成立。假设对〃该命题成立。并且设〃和 w 在2〃 个随机地有序的元素 
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的头 72 个中排位为〖_ = u - y tin n 」和 t + =「 t + a / dn n 1 。 （最小的元素的排位 

为1。）把其它72个元素和 W 作比较，并且还把那些小于 W 的那些元素和 W 作比较。 
在头 n 个元素中排位为 Z 的一个元素 X 在整个中有排位 S 的概率 A 是 

[ V ~ l \)^ n - t ) l ^ n ) 0 5 的平均值是这是的元素的平均数， 

因此同 m 作比较的平均数是 (.) ^ + — t + O {n log 7?) 1 / 2 。设 w 和幻在所有 2 n 


个元素当中排位为 和 5+， 并设 T\ = [_2 t -^/2 t ln2n 和 T + =[2 t + V 2 t \ n 2 n^o 
如果和 h >7\，通过在《和^;之间由 s+ -s — +1个元素中进行选择，我 
们能找出排位为： T — 和： T + 的元素。我们将证明，有^ > 了_或^ < T _ 


-2 Vn In 72或< 7\或 s + > T + +2 V n \n n 是非常不可 能的； 因此 

OUlog n ) 1/2 个另外的比较几乎就总是足够了。如果我们能够证明“非常不可能”指的 
是“对于所有充分大的 n ， 有概率0(;^ 1 〃）”，则通过对〃用归纳法就可得出提示了。 

注意 p s + ilp s = s(n - 5 + t)Ks + 1 - t )( 2 n - s )， 当 5 从，增大成 n + t 时减少， 
而且它是<1 的当且仅当 s ^ 2 n (t ~ l ) l(n -1); 当 s = s ( c ) = 2 t + ct(n - t)l n 312 

时，它 <1 _ 士 a — 1/2 + OU - M 。 因此 s >7( c ) 的概率是 <2 c - % 1/2 巧⑺ （1 + 

0(n " 2 )) 。类似地，当 s — s^(c) — 2t — \ — c {t — 1)(/2 + 1 - t) I n 3 ! 2 財， p s — 」 p s < 1 
- ~cn ~ 1/2 - 0( 72 — i) ， 所以 s<[(c ) 的概率 <2c — 1 ? 2 1/2 /) 5 _ ⑺ （1 + 0( 72 — 1/2 )) 。 在我 


们需要的情况下，对于所有很大的 n ， c 的相关的值 >.55 n 3/2 (ln n ) ll 2 t~ ll2 {n - 
Z ) 一 1 ，而且 Stirling 近似蕴涵着 九⑺和 ⑺两者都是 

O ( ?7 1/2 1/2 (2 72 — 5 )~ 1/2 ) exp ( - 2 sc 2 (n - t ) 2 / n 3 - 2 ( 2 n - s ) c 2 t 2 / n 3 ) ^ 

0( r " 2 exp (- 4 t(n - t ) c 2 / n 2 )) ^ O (t - ” 2 n - 1 . 2 ) 

因此 OU ^ 12 ( l 0 g n ) 1/2 ) 的概率确实是非常不可能的。[一个类似的构造出现于 
CACM 18 (1975),165 〜172中，但分析不正确。] 

25.给定一个选择算法和 u ， …， 刹的一 个排列 7 T ， 设如果 In | > |~-，|， 

则对于每个比较 tt 2 : TZj 计〜 的费； 如果 | 々 - 〖 | = \ n 3 -t \ ，则两者各计1/2。如果 


% Z 或々 > 〜 Z ， 对々 


的计费称为有 用的； 否则它是无 用的。 设是对是 


的所有计费，则比较总数是:^ +…+〜。显然4 = 0;但是对于所有 k 妾 t ， x k > Y , 


因为不同于〖的每个元素都有一个有用的计费。我们将证明对于 0<6< z ， E&m 



命义6(70 =[对〖+々的头 一 ^次计费是无用的]。于是 ( 7T ) = 1 - A _ ^ ? 

其中〆 和 7 T 类似但以 （t ~ k + \ ,t + k ,t ~ 々） 分别代替元素 {t ~ k ,t + k ~ \ , 

t + k ) 。因此 EA k + EA —是 =1 0 
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习题答案 


命 B k ( jr ) 


:对 Z 


々和，-々的头一次计费都是 f , 而且 t + k 接受它的第 


次 


计费在 t - k 之前]。还命 Q ( tt ) = [ x , + ,>2 + A ,] 0 于是私 U )< Q ( 〆 ）， 其中 n 


和 〆 类似，但是以 U 



-l,t - k ， t + k —2) 代替兀素 （z — 是 ， z — 是十 1 ， …，， 



1 ) o 类似地 ， J 3 — 々（7 rXC — 々（7 T ”）， 其中 7 T " 是从 TT 通过把 （Z — A 十 1，•••，{ + 々— 1， 


t 


k ) 变成 （Z —是 + 2 ， ••• “ + 





1 ) 得到。由此得出，且 EB 


k 




EC _ 


k o 


通过注意： c , 


-k 



X 


^2 + A k + A - 


k 


B k 


B — 


k 


C k 


C _ A 即可完成证明。 


[关于进一步的结果，参见 /ACM 36 (1989),270 〜 279] 


0 


(17) 中的上限也有一个相匹配的下限，姚期智和姚储枫’在 S 7 COMP 11 (1982), 


428〜447中证明对于 t >\ n >( St) ]St , V t ( n )> 


n 



2 


(In In n - In 


9) 


o 


26. ( a ) 设两种类型分量的顶点被标记为 a ; b < c 0 对手对非冗余的比较采取如下 


的动作:情况1，《 : 〆 ，作出一个任意的决断。情况2, 


X 



，比如说 X >6;此后对这个特 


定的6 所作的所有未来的比较，都将得到否则这些比较便通过对于 


U t ( 


n 


1 ) 的一个对手来加以判定，其总数将为>2+ 1) 次比较。这个归结可被 


缩写成“令 



min ; 2 + U t (n 


1)，， 


0 


情况3，工：〔，令 max ;2 + U f (n 一 1 ) 


0 


( b ) 设新类型的顶点被标记为 d { , d 2 < e ; f < g < h > i 0 情况 l , a ： a ^ 


C - c 




任意决断。情况2 ， a : c ，比如说 丨 

况4，: d ，令 d = min \ 2 + U t (n 


O 


情况 


X 



令 


mm 


-D 


0 


max 


情况 


x 



令/ 


min ; 2 + U t ( n 


1) 


2)。情况 8， x : A ， 令 /z = max ； 3 + U t 


情况 5 ， X : e ，令 e = 

5 情况7 ， x : g ， 令 / 和 

d 情况9 ， x 



U t ( 


11 


1) 


O 


冃 


n 


1 


G 


mm 


n 


i ) 


•• i , 令 i 


二 mm ; 



-l- 


U t ( 


n 


一 l) 


o 


( c ) 对于〖 = 1，我们有 U t ( n ) = n - 1，所以不等式成立。对于1< 


n 



使用归纳法和 （ b ) 


0 


对于 


U - 1)/2,使用归纳法和 （ a )。 对于 t = nl 2, U f 


11 


1, 

1) 


U t - 


1 


n 


1 ); 使用归纳法和 （a 


O 


27. ( a ) 高度 /z 满足 


1 /P 


O 


( b ) 如果〖，则在至少 n - S 


T 0 


n 


s 


r 个触发之后，我们达 


到 A 3 


o 


第 t 个最大元素将是 Q 的最小或者最大的元素，而且 Q 的元素彼此还未比 


较过，所以我们将需要至少另外的 I Q 


1 个触发。如果 is 


r ， 否则我们有 |Q > S 




o 

1 


< g ， 我们有 I Q 
1 ; 所以在两种情况下 
个包含〖 -1 个最大元素的集合： T , 这些元 


1> S 



都将作至少 n ~ q 个触发。有7? + 

素是由一个给定的叶确定的，而且对于每一个这样的了，达到该叶的概率是0或者 


2 


/ 


n 


t 


，其中/> 


n 


g 是对应于了的触发的次数。[这个对手在 Bent 和 John 的 


文章当中是含蓄的，见 STOC 17 (1985),213 〜 216] 


0 
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(c) 如果〖 < 「，把 〖变成为 n + 1 - G 当 r 使右边取极大时，这将使，因为 r 

勝 

将是 O(V ^)。 如果对于所有 T q ， 有可能以 | C(y) | >q~r 达到 A3 ，则除了它 
在 S 和了 \ 丨 3^) 丨之间所作的至少（「 - l、（q - r+ 1) 次比较之外，这个算法还将作 
n - 1 个比较来把第 Z 个最大元素同所有其它元素关联起来。 

(d) 选择 r = T 1 和 g = 2r- 2 。（令 g=r + L + 士 」 _ 2 稍微好些；这个 

选择使 （ c) 中导岀的下限极大。） 

5.3.4 小节 

1.( 当 m 为奇数时，最好在％后边接上 v k + i ， zv k + i ， v k + 2 ，''' ，而不是像在图中那 
样接上 zv k + l ,v k + 1 ,zv k + 2 ,-o 由于被转换的行彼此相比较，因此这个改动是正确的 。) 


(3,5) 奇 - 偶合并 户 ratt 的八路排序 



2.增量 / i 需要2 - [2/ i > n ] 个级； 对于 n = 8见上面的图式。 

3 .对于 7)1^1 , C ( 7)2 , m — 1 ) = C(m , 771 ) 一 1 。 

4. 如果 t (6) = 4, 则因为^(6) = 12,每次将有三个比较动作。但是接着撤销底 
线和它的四个比较器将给岀 M 5)<8, 矛盾。[同样的论证产生 f (7) = f (8) = 6] 0 

Ian Parberry 通过穷尽的计算机查找已经证明 f (9) = f (10 ) = 7; 参 见 Math. Systerns 
Theory 24 (1991) ， 101 〜 116。 ] 

5 . 如果 ^2>2，设/(77)=/(「77/21 + 1 +「4「77/211);于是，对77用归纳法 / U ) 

= (1 + 「lgrz 1) 「 lg” 1/2 。 

6. 我们可以假定每个阶段作 LW 2」 次比较（额外的比较也无妨）。因为 t (6) 二 
5,只需证明了 (5) = 5。当 w =5时，在两个阶段之后，我们不能避免偏序+或 

^ ，再用两个阶段不可能对它们的排序。 

7. 假定输入键码是丨1，2,…，101。关键码的事实在于，在进行了头16次比较之 
后，行2，3,4和6不可能包含8或9,它们也不可能同时包含6和7。（注意修改后的 
网络有延迟8。） 

8. 定理 F 的直截了当的推广。 

9. 由习题 8 ，兪（ 3,3)> 忌（ 6) — 2 1 §(3) ; 兪（ 4,4)> 忌（ 8)-2 忌（ 4) ; 妨（ 5,5)> 
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习题答案 


2 M (2,3)+ 3;而且 M (2,3)> g (5) -忌 （2) —忌（3)。类似地， A (3 ， 4 ) = 8 。但 

M (3,5) 和 M (4,5) 等于多少呢？ 

10•由定理 Z 中的证明方法可得提示。然后证明，偶子序列中0的个数减奇子 
序列中0的个数为± 1或0。 

11. ( M . W . Green 给出的解。）在下列意义下，这个网络是对称的，即，每当^同 
Zj 进行比较，则就有一个相应的比较 ： Z 2 l -\- t o 任何有能力对序列〈=()，•••， 

- 1〉排序的对称网络，也将对序列 ( ~ 2：2 ? - 1 , **• , - Z 。〉 排序。 

Batcher 已经发现，这个网络确实将对一个双调序列的任何循环移位〈$，~ + i ， 

…， — 〗， z 0 ， •• •，勺 — ！〉排序。这是 0-1 原理的一个推论。 

[当阶不是2的一个次幂时，对于双调排序器这些结果不成立。例如，图52不 
能对<0,0,0,0,0，1，0>进行排序。 Batcher 对双调序列原来的定义更复杂，而且不 
如我们现在采用的定义有用]。 

12. x V ^ 是（考虑 0-1 序列），但是 ： c A：y 不是（考虑〈3，1，4,5〉六〈6,7,8,2〉）。 

13. —个完全的洗牌有以代替义的效果，这里 7 的二进表示就是由 z 的二进 

表示向右循环转动一位得到的（参见习题3.4.2-13)。如果洗的是比较器而不是诸 
行;则这使得比较器的头一列作用于对偶和 2： U • ㊉ 2" _1 ]，下一列作用于 z [ i ] 
和2：[ i ㊉ 2〃 2 ]，…，第，列作用于 z [ i ] 和2： [ f ㊉ 1 ] ，第 t + 1列再次作用于 z ( 0和 
㊉ 2"^]，等等。这里“ ㊉ ”指二进表示的异或。这表明图57等价于图56;在 S 个 
阶段之后，我们得到2 5 个元素的一些组，它们的次序交替地呈正序和反序状。 

C . G.Plaxton 和 T . Sue \[ Math . Systems Theory 27 (1994) ，491 〜 508] 已经证明， 

任何这样的网络至少需要 n((log n ) 2 /log log / z ) 级的延迟。 

14 • ( a ) 对于 ，令 y is = x js ， y p = x is ， l = A ; 于是 — xa 0 ( b ) 这是显 

然的除非集合匕，^，6,7,丨只有三个不同的元素；假设 i s = i t 。 于是，如果 s < 〖，则 

在和（ V ) 5 两者中 ， s - 1个比较已经分别以 （ u ,， f 5 ) 代替 （ c ) 

U 5 ) 5 = a ，和 a 1 = a ，所以我们可以假定 （ d ) 设 f= a [i j ] ; 于 

是办 （Xi ，…， x „) = V Xj ) A ( g a (A ， ... ， A . ， ... ， A ， ... ， ) V g a { x x , ••- , Xj , ••- , 

x 7 ，…， x „))。 迭代这个恒等式就产生结果。 （ e )/ a ( x ) = 1当且仅当在 G a 中没有从 

^到7的通路，其中4>巧。如果《是一个排序网络，则 a 的共扼 也是； 而且对于满 

足4>々 + 1 的所有1，人（1)=0。取 : r = 这表明，对于某个有从 f 到 

k i 的一条有向弧。如果 + 表明对于某个 k 2 ^\ i , k l \,x = 

一） Ve ( V 表明 G 有从 f 或 h 到 h 的一条有向弧。如果 hT ^ + l ， 如此继续，直到 

在 G 中找到从 f 到 i + 1的一条通路为止。反之，如果《不是一个排序网络，令： T 是 
满足 A > x 7 + 1 的一个向量，而且 ga ( x ) = l 。 某个共扼，有 / a /(： r ) = l ， 所以不 

可能有从/到 f + 1的通路。[一般地说，对所有的 x , ( xa ) xa ) j 当且仅当对于 

所有共轭于 a 的 〆 ， G a / 有从 〖到 j 的一条有向通路。] 
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5.3.4 小节 


15. [1：4][3：2][1：3][2：4][2：3] 0 

16. 这过程显然终止。步骤 T2 的每一次执行有交换第~个和第、个输出的作 

用，所以这个算法的结果，是以某种方式排列输岀行。由于得到的（标准）网络不改 
变输入〈1，2, …， 72〉，输出行必然被恢复成它们原来的位置。 

17. 通过习题16的算法使网络标 准化； 然后考虑输入序列〈1，2，...，72〉，我们看 

到标准选择网络必定把〖个最大的元素放入到〖个最高编号的 行中； 而且网 
络必然把第（个最大者放入行72 + 1 应用 0-1 原理。 

18. 定理 A 的证明表明 V t { n )>( n - t)\\g U + l )1 +「lg d 

19•网络 [ I :”] [2:72] … [1:3] [2:3] 用 -4 个比较器选择最小的两个 元素； 对 
于亡 2 ( n ) 加[1 :2]。下限从定理 A 的证明得出（参见前面的答案）。 


20.首先注意，当72>4时， t 3 U )> V 3 U -1) +2;由对称性，可以假定头一个 

，…，〉中的第三个最 


比较器是 [1:72]; 在这之后，必然出现一个网络去选择 


12，义3 


大者，而另一个比较器接触行1。另一方面， V 3 (5)<7, 因为四个比较器找到 
jc 2 ，: t 3 ， x 4 丨的 min 和 max , 而剩下的是对三个元素排序。 

21.假的；例如，考虑两个网络 [1:2] [3:4] [2:3] [1:4] [1:2] [3:4] 和 [1:2] [3 

_2:3][3:4][1:4][1:2][3:4]。(然而 N.G de Bruijn ^Discrete Math .,9 ( 1974) ， 


证明，新的比较器不会把在习题 36 的意义下是原始的排序网络弄乱。） 

22 . ( a ) 对 a 的长度用归纳法，因为和 ^< yj 蕴涵和 V 


X 


(yj y ] 


( b ) 对 a 的长度用归纳法，因为 （ a 八 


X 


)(yi A 3^) 



X 


;V 


X 


)( ^* v y } ) > 





七为；[因此，1>(：^3；)<^：^八，），这个发现是由 W . Shockley 给出的 


0 


23 .设= 
( p a ) k ，等等 


当且仅当 p k > j , y k 


当且仅当九 > 7; 贝 IJ ( xa 


k 


1 当且仅当 


0 


24.对于 G 这个公式是显然的，而对于如同在提示中那样取 


八 v ，而由 


习题21，发现 （ m ) 7 . 二 


za 


0。由习题23可知，加上额外的一些1到 z ， 即可看出 


存在一个排列 h 它使得幻。通过颠倒次序得出<•和 < 的关系式。 

25. ( H . Shapiro 给出的解。）设{和 g 是排列且（ pa ) k = l k 和（讲）& = %。通过 

系列的步骤，每步交换相邻的一对整数 + 1)，有可能把^变换成输入中这 


样一种交换对第々个输出的影响至多是±1 


0 


26.存在有 一一 对应，它把的元素〈/^，…，九〉对应到“覆盖的序列 


X 


( 0 ) 


X 


( 1 ) 


x ^ 1 — ” = X ⑴ 


覆 JD 1 …覆盖 


y e {j) o 


X 


(n) 


其中 


(/) 


在 中； 在这个对应中，当且仅当 P ] 


覆 

时 


例如，〈3，1，4,2〉对应于序列〈1 


1 〉覆盖〈1，0，1，1〉覆盖 


〈1，0，1，0〉覆盖〈0,0，1，0〉覆盖〈0,0,0,0〉。[姚期智发现，因此，只需对于 
当地选定的排列测试一个排序网络即可。例如排序〈4，1，2,3>，〈3，1，4 


n 


一”/2」 


个适 
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2〉〈2,4，1，3〉和〈2,3,4，1〉的任何4网络对任何事情进行排序。参见习题 6.5-1; 也 
见习题56]。 

27. 这个原理成立因为（:•是： c 的第/个最小的元素。如果 j ： 和5表示其行 

是排好序的一个矩阵的不同的列，使得对所有的而且如果和 ，表 

示对这些列排序的结果，则所述的原理表明，对于所有 z ， （:，因为我们可 

以选择和^中的任何2个元素的处于相同的行上的 x 的 z 个元素。[我们曾使用这 
一原理，以证明谢尔排序的不变性性质，即定理 5.2.1 K 。 关于这个思想的进一步的 

利用，见 David Gale 和 R . M . Karp 有趣的文章， J . Computer and System Sciences 6 

(1972),103 〜115。关于列排序不弄乱排好序的行这一事实看来是在研究表格的处 

理时发现的；参见 Hermann Boerner , Darstellung von Gruppen (Springer ， 1955) 第 5 

章， § 5。] 

28 . 如果丨，…，&丨是 z 个最大的兀素，则 x ,. A … A Xi 是第 z 个最大的。如 

1 t 1 t 

果 U . ，…，: T , 丨不是，个最大的元素，则: r , A … A A 小于第 f 个最大的元素。 

1 t i t 

29. (x { f\ yi ， (x 2 f\ yi)y A y 2 ) , (x 3 A 3 ； t) V (x 2 八 ： y 2 ) V A y 3 ) V (x 3 
A 3 ； 2 ) V (x 2 A 3 ； 3 ) V ( 工 1 八 3 M), 力 V (x 3 A 3 ； 3 ) V (x 2 A 3 ； 4 ) V A y 5 ) , y 3 \J {x 3 A 

3； 4 ) V (x 2 A 3； 5 ) V ， 3； 4 V (jo 3 A 3； 5 ) V x 2 ， 3； 5 V x 3 > 0 

30 . 应用分配律和结合律把任何公式归约为诸 A 的诸 V 的 公式； 然后用交换律， 
等幂律和吸收律导出规范形式。 S 7 正好是那样一些集合 S ， 使得当 

这个公式为1，而对于 s 的任何真子集义，当：时这公式为0 。 

31.1 = 166。 R.Church[Duke Math.J. , 6 ( 1940 ), 732 〜 734 ] 求出 = 7579, 

M.Ward[Bull.Amer.Math.Soc. , 52 (1946) ,423] 求出心 = 7828352 ， 以下的值是心 

= 2414682040996, = 56130437228687557907786。 [ R . Chrtch , Notices Amer. 

Math. Soc. 12 ( 1965 ), 724; J . Berman 和 P . Kohler , Mitteilungen Math. Seminar 
GieBen , 121 (1976) , 103 — 124; D . Wiedemann , Order 8 (1991)，5 〜 6]。 显然对于 
A 没有简单的公式。 D . Kleitman [ Proc . Amer. Math. Soc. 21 (1969)，677 〜 682] 使用 


in / 2 ] 

32. G , + 1 也是所有串 00 的集合，其中 0 和 c /； 在 G , 中，而且作为0和1的向量0 
<中。由此得出，是所有0和1的串 q …^的集合，其中每当在 0-1 向量的 

意义下， i 的二进表示的二进表示时即有性质 G , 的每个元素&，•••， 
之2, - 1，除了 00"0和 11*" 1之外，在 /( Xi ，… , X t ) — Z [(： cr “： c z )2] 的对应之下，表不 
从 D 2 z 到|0，1丨的一个八 — V 函数/(:^，…， a )。 

33. 如果这样一个网络存在，则对于某个函数/，我们将有 {xi A x 2 ) V ( j ：2 A x 3 ) 

V ( x 3 f\ X 4 ) = f ( X I A X 2 , Xi V X 2 , JC3 , JC4 ) f { x x f\ X2, , x 2 , JCi V X3 , X 4 ) ^ * * * ^ 

/( , J：2 ， X 3 八 X4 , J： 3 V J ： 4 ) 。 选择 〈 J：i ，工 2 ，^" 3 ，^* 4 〉—〈工 5 OC ， 1 ， 0〉，〈 X yO y X ， 1 〉，〈 X , 
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一 个极其复杂的论证证明了当 n — oo 时， （ l g 8 n )j 



5.3.4 小节 


l ，0， jc 〉，〈 l ，* x ，: c ，0〉，〈 l ，: r ，0，: c 〉，〈0， l ， z ，: c 〉 表明不存在这样一个函数 /。 

34 . 是； 在证明了这点之后，你已经准备好着手处理图49中的 n = 16的网络。 

(否则，你利用定理 Z 采用硬算的方法简单地测试所有 Y 个二进位的向量。） 

35. 否则，其中仅有 z 和 z + 1放错地方的排列将永远不被排序了。设 A 是在 

一 个标准的排序网络中比较器•:丨+々]的个数。则 A + 2 D 2 + D 3 >2 (n -2)，因 
为对于1< i < ” - 3 ，从丨 f ， f + 1丨到 U + 2 ， f + 3丨以及 [ 1:2 ] 和 [n - 1: ” ] ，必然有两 
个比较器。类似地+ 2 D 2 +…+々认+ (々-1)认 + 】+…+ D 2 々 _ ( n - 々），这 

是一个由 J . M . Pollard 给岀的公式。也可以证明+ D 2 >3 n _ 4:如果我们对于 

所有的 j 删去形如 [7 + 1] 的头一些比较器，则对于 - 2必然至少还剩下 
一 个比较器位于 UV + l，i + 21之内。类似地+ U - 1) D 2 + … + D 々 >SU + 

l)(n - 々）+ 々（々- l)o 

36. ( a ) 每个相邻的比较器都使反序数减少0个或1个，而且“ - 1，…，1〉有 
个反序。 （ b ) 设 a = 外 ， p + 1]，对 a 的长度用归纳法，进行论证如下 ：如果 

p = 则 j>p + 1，而且（4) /5 >(:^夂，（:^) /) + 1 >(:^)^因此（3^) /5 >(3^八和 

(^)^ + i >(3^)； o 如果/>=卜1，则或者 （4) 户 或者 （#)； ^要〉 （工外；因此或者 
( yp ) p 或者 （ f 、 p + ]_> ( yp )] 。 如果/> = 7 - 1或7，论证是类似的。对于其匕的 P ， 论 

证是平凡的。 

注意 ：如果 a 是一个原始排序网络，因此 /( 在颠倒次序下的比较器）也是。关 

于 （ c ) 的推广和另一个证明，参见 N . G . de Bruijn , Discrete Math . , 9 (1974),333 〜 
339 ;Indagationes Math . 45 (1983) ， 125 〜 132。在后 一 ▲篇论文中 ， de Bruijn 证明， — ▲ 

个原始排序网络对多重集合 Ur 1 ，…， • m 丨的所有排列排序当且仅当它对单排 

列 ml / i 进行排序。对于排列 z 和 y 定义的关系^ <： y 指的是存在一个标准网 
络 a 使得 : c = ： ya ， 这叫做 Bruhato 限定于原始 a 的类似关系称为弱 Bruhat 次序（参 

见5 . 2 .1-44 题的答案）。 

37. 只需证明 ：如果 每个比较器被一个交换操作所代替，则我们便得到一个“反 
序网络”，它把转换成为 〈： r „， …， zd 。 但在这种解释之下，不难来跟踪 

A 的路线。（注意，排列 tc = (1 2)(3 4)---(2 n - 1 2 n )(2 3)(4 5)---(2 n -2 

2 n - l ) = (l 3 5 ••- 2 n - 1 2 n 2 n ~2 ••- 2) 满足 tc ” = (1 2 n )(2 

2 n — l)* ,, (n — 1 n 、） 。 1954 年 H . Seward 简略地提到了奇偶转置排序；它曾经为 

A . Grasselli [7 i?E Trans . EC - 11 (1962) ,483] 和为 Kautz , Levitt 和 Waksman[/EEE 

Trans . 017(1968) ,443 〜 451] 所讨论。关于这个网络的反射性实际上老早就由 H . 
E . Dudeney 在他的“青蛙难题”之一给出了 [Strand 46 (1913) ,352,472; Amusements 

in Mathematics (1917), 193] 0 

38 . 使用算法 5.1.4 I ，把元素、，•••，〜插入到开始时为空的图表中，但有一个 
关键码性的 改动： 在步骤13中仅当 u 时才置当输入 h … iN 定义 
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习题答案 


一个原始排序网络时，可以证明，仅当 A + 1 = A 时，在该步骤中 A 才将等于 
^• 0 - 1)0 (算法中带括弧的断言需要加以修改。）如同在定理 5.1.4 A 中那样，在把 
插人到 P 中之后，置 j 。 在 N 步之后，图表 P 将总是在行 r 中包含 （ r，r + l ， 
…，〃-1)，而 Q 将是这样一个图表，通过向后进行，可以由它重新构造出序列。… 

?.jV 来。 


例如，当 " =6时，序列 z •广 w n = 4 132435431235 

1 4对应于 



1 

2 

3 

4 

卽 


2 

3 

4 



P = 

3 

4 




4 

3 



5 




参考 文献： Q 的转置对应于补充网络 



n 



1] 0 A . Lascoux 和 M . P . Schiitzenberger,Comptes Rendus Acad. Sci. ( I ) 295 ( Paris , 
1982) ,629 〜 633 ; R . P . Stanley , Eur . J , Combinatorics 5 (1984), 359 〜 372 ； P . H. Edel - 
man 和 C . Greene , Ad vances i’n Mafh 63 (1987 )，42 〜99。原始排序网络的图式也对 
应于二维凸性的虚拟线和其它抽象的 安排； 关于进一步的信息，请见 D . E . Knuth , 


Lecture Notes in Comp. Sci. 606 (1992) 0 

39 .例如，当 n =8 时，这样一个网络必须包括这里所示的比 较器; 
所有其它的比较器对10101010都是低效的。然后像在习题37中那样， 
行「 W 3] … 「2 n /3] = 3"6 对4元素进行排序。（本习题是以 David B . 
Wilson 的思想为基础的。） 

注意 ：在对 于一个给定的二进数串进行排序的极小长度原始排序网 
络和其形状由该二进数串定义的弯曲通路所限定的 Young 氏图表之间 



有一个 一一 对应。因此，习题38产生对（10)" /2 进行排序的 



j 个比较器的原 


始网络和对 "/2 + 1 个任意数进行排序的 p /2 2 +1 ) 个比较器的原始网络之间的一 

一 对应。如果一个原始网络对二进数串1" /2 0" /2 进行排序，则我们可以作一个更强 
的断言 ：对于在行々 直到々+ 〃/2 (含 々和 々+ 〃/2)上的子网络组成的所 
有它的“一半”，都是排序网络。（也可参见 de Bruijn 的定理，在习题36的答案中引 
用了它。） 

40.通过应用尾部不等式到 H . Rost 的一^篇论文 (Zeitschrift fur Wahrschein- 
lichkeit Stheorie und Verwandte Gebiete 58 (1981 )，41 〜 53) 中的命题 7 的有趣构造， 

并置 6 = 士， a = +和 / =4 7?， 即可得 出。 


实验证明，达到任何原始排序网络的预期时间一不必是气泡排序一非常接近于 
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In 


O 


奇怪的是， R . P . Stanley 和 S . V , Fomin 已经证明，如果以下面这样 


种方式来 


非均匀地选择比较器 [ & : & 



1]，即4 


j 以 j 


n 

2 


的概率出现，则相应的预期时间 


就精确地成为& 

42.从某个输入到最大的输出，必定存在长度为 rig d 或更长的一条通路（考虑 
定理 A 中的当把该输入置成〜时，在这条通路上的比较器有一个预先确定的 

特性，而且剩下的网络必定是一个 （ 7 ? - 1) 排序器 。 [IEEE Trans on Computers , C - 

21 (1972),612 〜 613。] 

45 . 在 Z 级之后，输入 & 可以至多在 V 个不同的位置上。在合并完成之后，:^ 
可以在^ + 1 个不同的位置上。 

46. \J ^ Algorithms 3 (1982) ，79〜88;以下的另一'个证明是由 V . S . Grinberg 给 

出的。]我们可以假定而且每一阶段作 m 次比较，令 l = [( n ~ 并 

假设我们正在把：…同合并。一个对手可以迫使 「 lg(m + ??)1 

阶段进行 如下： 在头一个阶段，某个同一个元素％作比较，其中我们有 k 之 I 兔 k 

+ m 。这个对手判定 ： i < yi 和5 + 1 > ： V n ;而且如果々< /，则：^ > %，而如果 

+ m ，则巧< 3 ^。剩下的任务实质上是把&同+ 或者同: 

yk — 1 合并。所以至少剩下 min (— A + 1 ，々 ）^ min ( n — / + 1 , / + m ) — \ {m n )/ 2 ] 

个结果。因此至少有 「 lg「（m + n )/ 2 ]] =「 lg(m + ??)1 _ 1 个随继的阶段是必需的。 

48. 设 W 是（: ra ) 7 的最小元素，并设/ W 是中任何一个这样的向量，它使得 

( 7 ⑻ ） 6 二 0 蕴涵着包含一个< w 的元素，(^ (0) )^ = 1 蕴涵着 （: ca )々包含一个 

> u 的元素。如果 a = ^[ p : g ]， 则有可能找到一个满足同样条件，但是以^代替 a 
的并且使得 y 1 ) [ p : q ]^ :/⑴的向量： Z 1 )。 从 （ 3 ； ⑻）/ = 1 ， ( y (0) )j = 0 开始，我们最终 

有满足所需条件的向量3^ = 3^、 

G . Baudet 和 D . Stevenson 已经发现，把习题37和48结合在一起，产生出在々 

个处理器上只需 （）M + 0 (n ) 个比较的简单的排序方法:首先对大小为<「 n \ k \ 
的々个子文件排序，然后使用々阶的“奇偶转置合并”在々次扫描中合并它们 [JEEE 

Trans . 027 (1978) ， 84 〜 87] 。 

49. (x V 3OY 2 和 z ^(y V 2 ) 两者都表 7 K 多重集合 x y z 的最大的 m 个 

兀素；（ X 公 jO 穴2和 z ※（: V 久％)表亦最小的 m 个。如果 x — y — z — 10,1 ) ，则 （jc 
久 z)^(y ^ z ) — {x ^ 3 ; )^(* r ^ z)^(y ^ z ) = | 0 , 01 ，而| 0 , 0 , 0 , 1 ， 1 ， 1 丨的中间元 

素是|0，1|。三个元素的排序网络和习题48的结果意味着 x + 的中间元素可以 
表达成 （（：r Y y )^ z)^(x ^ ： y ) 或（（^公 y)Y z)^(x V : v ) 或者在这些表达式中排 
列：后所得到的任何其它公式(对于中间元素似乎没有“对称”的公式）。 

50. 等价地，由定理 Z , 我们必定能找到满足在[ 0 " 1 ]中对有理值： r ，： y 的操作 

V ^ = min(x y ,1) , x y = max ( 0 ， x + 3 / - 1 ) 的所有恒等式。[这好比是由装满 
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习题答案 


^的杯子中倒岀尽可能多的液体到装满 ： v 的杯子中的操作，这是 J . M . Pollard 指岀 
的]。所有这些恒等式可由四个公理的一个系统和 Lukasiewicz 的一个多值逻辑推 
导规则得到，见 Rose 和 Rosser , Trans . Amer . Math . Soc . 87 (1958),1 〜53。 

51 .设 a ' = a [ i : j ] ，并设々是一 ‘个 # i ， j 的指标。如果对所有 x , ( xa ) z 
( xct ) & ，则 （xct ’ X ( x〆 ） 々 ； 如果对所有 x , ( xa ) k ^( xa ) { 且 （xa ) & < ( ) ; ，则当 a 

被代之以，时同样的事实 成立； 如果对于所有的 

(: n /) 7 。 这样我们看到，，至少有和 a —样多的已知关系，如果 [ z : 7 ] 不是冗余的， 
则还多加上一个 DBeW System Tech .]. 49 (1970) ，1627〜1644。 ] 

52. ( a ) 考虑对诸0和诸1排序。设 w = xq + :^ +…+ x N 。 这个网络失效当且 

仅当在完备的 N - 排序之前 ZV ^ t 和 Xq = 1。如果在这时 xo = 1，它必定开始时已是 
1 了，而且对于，我们必定在开始时就有，对于 ， x 2j — 1 + 2nk = 1或 

者对于 ( Xk<m , X 2j +2nk = 1;因此 U)^l + {m + 1) 71 - t o 所以失效意味着对于1 

,zv = t 和 + 2 M 以及对于 〗，而且对于 Kj < m ， 

特殊的子网络必然把这样的输入转换成使得 X 2m+2n+J = lo 

( b ) 例如，对于 （ 3^1 V ： V 2 V 力 ）A ( 力 V 力 V 3 M ) A …的特殊的子网络，利用 
工2; - 1+2纟《和+ 2纟《来表不在第 A 个短句中的: y ； 和 ： y ; ，以及用 X 2 W +2；7 + &来表不该短 

句本身，则可以是 

[1 + 2 tz : 2 mn + 2 n + l ][3 + 2;? ^ 2 mn + 2 n + lJ [6 + 2 n ^ 2 mn + 2 n + 1 ] 

[4 + An * 2 mn + 2 n +2][5 + 4 n * 2 mn + 2 n + 2][8 + An - 2 mn + 2 n + 2] … 

53 . 按照下列规则来画红线或蓝线 

如果 imod 4 是 则在情况 ( a ) 中的线 f 以及情况 （6) 中它是 


0 红 红 

1 蓝 红 

2 蓝蓝 

3 红蓝 

现在观察由两个分开的网络组成的网络的头〖-1级，这两个网络一个是对于 
之〃 1 条红线的，而另一个是对于条蓝线的。如同在双调或奇-偶合并中那样，在 
第 t 级上的比较器完成一个合并网络。这就建立了对于6 = 1的要求的结果。 

红蓝分解也确立了 k 二 2 的情况。因为如果输入是4有序的，则红线包含2有 
序的 f 1 个数，对于蓝线也一样，因此在〖-1级之后，我们得到 

工 03 ; 03 ; 1 工 1 工 23 ; 23 ; 3 工 3."( 情况（ 3)) 或工 0 工 13 ; 。 3 ; 1 工 2 工 33 ; 23 ; 3."( 情况（匕 ）) 

最后结果 

(工 0 A 3^)( 工 0 V 3^)(3^ A xOGi V 工 1 ) 或 

工 0( 工 1 A ^ 0)(^1 V ^ 0)(^1 A ^ 2)(^1 V x 2 V" 
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显然是2有序的。 

现在对于々>2,我们可以假定“头 t - k +2 级分解成2〃 2 个大小为 
+ 2 分开的网络。由 A =2的情况知，它们每一个都是2有 序的； 因此在 t - k—l 
级之后这些线是2&- 1 有序的。随后的级显然保持为2*— 1 有序的，因为它们有阶 
2卜 2 的“垂直的”周期。（我们可以想像在 -1， - 2,…线上的-⑺和在2\2 / + 1 ，…线 

上的+ °°)o 


参 考文献 ：网络 （ a ) 首先是由 M . Dowd . Y . Perl , L . Rudolph 以及 M . Saks JACM 
36 (1989) ， 738 〜 759 引进的；网络 （ b ) 是由 E . R . Canfield 和 S . G . Williamson , Linear 
and Multilinear Algebra 29 (1991),43 〜 51 引进的。指岀这样一点是有趣的，在情况 
( a ) 中，我们有 iV = G ,， 其中 G , 在习题32中定义 [ Dowd 等，定理 17]; 因此，认的 

映像本身不足于表征一个周期网络的特性。 

54 .下列由 Ajtai 、 Koml 6 s 和 Szemeddi[FOCS 33 (1992) ，686〜692 ] 给岀的构造 

表明如何使用四级 m 2 排序器来对 m 3 个元素进行 排序： 我们可以假设，被排序的元 
素是诸0和诸1;对于 0< a ，6， c < m 令线被编号为 U ，6， c ) = am 2 + bm + c 0 头 一^ 
级对于 ( Xk 〈 m ，对线 \ {a , b{b + k ) mod ?n | O^a , b<m \ 进行排序 ； 令 q 是 7 ? z 2 

条线的第々组中1的个数。第二级对于 0<々< m 对线丨 
行 排序； 于是 在第々 组中1的个数是 


h 


m — 1 





； = o 


a 




而且由此得岀 b ^ b x + 1,6!<6 2 + l ,--- + lo 在第三级中，对于 0<々< 

饥，我们对线丨（^，^，6)|0<“，6<7；7|进行排序 ； 在第 々组中 1的个数为 






+ km + j 




如果对于 j < M )< q + 1 < m 2 , 我们有 



Cj =0 o 类似地，对于 j>k + 


1，如果0< 〈 m 2 ，我们有 c k + i ^ m 2 



0 o 因此，对于 0< A 〈 m ， 对 





-1 进行排序的第四级将完成这个排序。 


由此得出，四级 m 排序器将对 /( 


- VmJ 3 个元素进行排序，而且16级将对 


/(/( m )) 个元素进行排序。这就证明了所述结果。因为当 m >24时 ， /(/(m 

(这个构造并不“紧”，所以我们大概可以用比16级少得多的级来做这一工作 
55.[如果 PU ) 表示在一个排列网络中所需要的极小开关数， 

则显然 P ( n )> rign ! lo 通过稍微推广 L.JXoldstein 和 S . W . Leib - 


0 


holz 给岀-的一个构造， 

能够证明 P ( n )<( PLn /2 j ) 


.EC-16 (1967),637 




人们 


71 


/ 21 ) 



71 


因此，对所有的 



649 



习题答案 


n ， P ( n )< B ( n )， 其中 BU ) 是等式5 . 3 .1-(3) 的二叉插人函数。 M . W . Green 已经 

证明（未发表） P (5) = 



56.事实上，当： r 有 々个 0时，我们可以归纳地构造使得 : m 


X 


0 




1 


ior 




k - 1 


o 


基础情况 a 1 Q 是空。否则，下列四种情况中至少有一种适用，其中: y 未被 


排序 :(1 )jo - yO , a 


X 


a y I n 


1 ： n ] 


n 


2 : 


n 



O O d 


[1 ：2] 


o 


(2) x = yl , a 


X 


a 


y 


_ 1 : 打 ] [ 2: 


l ： y，a 


X 


a 


n 


+ 


••• [ ?2 - 1 : n 

[1:2][2:3] 


o 


(3) 


X 


0： y ， 


a 


X 


a 


+ 


— 1] … [1:2] 0 (4) x 




n 


n 


o 


通过把每个比较器 [ 〗： ] 变成 [ z ’ + 



1]，从 a 得到网络，。[参见郑文祯和 B . Ravikumar ， Di SC ret e Math . 81 (1990),1 





O 


这个构造使用了 


n 


2 


-1 个比较器，可以使用更少些吗? 


[见朱洪和 R . Sedgewick,STOC 




302。]通过归纳法可以容 


易地验证所述的延迟时间。但当 A (0，〃）= A ( m ，0)=0 时，分析递推式 


A ( 


m ? n 


A ( I m /2 j , T ^/2]) + A (T m \2 \, ln /2 j ) 



m 


/21 



「 n /2 l 


的问题更困难。 

双调合并作 B {m , n) — C{vi + /?) 次比较；参见 （ 15 )。 因此我们可以使用 
ILw /2」+「72/2 l ，「 m /2 l + LW 2」| = | L ( + n)l2],[ (m + / z )/2 l 丨 的事实来证明 
B ( m ， n) = jB ( LW 2」，「 n /2]) + B ([ 777 / 2 ] ? L n/2]) + 1( m ^ tz )/2」 。于是由归纳法 
A ( m ， nXB(m , n ) 0 

令 D ( m ， n ) 二 C (、m + l,n + 1) + C(m ， n ) — C(m + 1，”）— C ( rn ， n + 1)。 我 
们有 D (0 , n ) = D(m ,0) = 1 以及当 m + n 为奇数时否则 m + n 为 
偶数和削>1，而且我们有 D ( m , n ) = D ( Lm /2 j , Ln /2 j )- l 0 因此，对于所有 m ， 

n ^0 ,D(m , n )^1 0 

对于 A 的递推式等价于对于 C 的递推式，除非当 m 和 n 都为奇数时。而且在 
该种情况下，通过归纳法，我们有 AU ，”）> C ( LW 2」，「 W 21) + C (「 W 21， LW 2」) 

+「 m /2 l + T W 21 - 1 二 C(m , 7 ?) + 1 - D(^m 12] ,\_n l2])^-C(m ,n) 0 

命 / = T lg min ( m + n ) 1 0 对于 </ ，在偶奇递归 的级々 上，对于 (X j 
我们实施大小分别为 （ , n jk ) = ( i ( m + j )/2 k j , l(n + 2 k ~ I ~ j )/2&」） 的个合 

并。递归的费用， S 7 (「 vi )k \l \ + T n jk l 2' - 1) ，是 f k ( m ) + /^ ( n ) - ; 我们可以写 

fk(n) = max ( ^，/2 - O , 其中 4 = 26LW26 + 1 + l /2」 是最接近于 tz /2 的的倍 

数。由于 0</^ U ) - 7?/2<2^，所以对于级0到 Z - 1，递归的总费用是介于 


( m + n ) L - 2 1 和 + n ) I 之间。 

最后，如果 ? n ^ n ，对于 (X j <2 1 - m ， 在级 / 上的个合并（气^，义 7 ) 有奶; 7 二 

0，对于 j 的777个其它的值= 1。由于 A ( 1, n ) = 72，因此级/的总费用是 


m + n 
^ k- n 



m — 1 
2 



o 
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5.3.4 小节 


和双调合并不同，因此偶奇合并，最优比较次数 i ( m ， n ) 是在 0 (m + n ) 之 
内。我们的推导事实上表明， A ( ，； 7 ) = + f k ( n )~2 k ) + ( m + n ) 

— gi ( max ( m ， ”）） ， 其中餐 / (/ 1 )可以表达成 2 |：^匕々/ 2 / 」=匕打/ 2 / 」（”— 2 / 1 (\_ n /2 l ] 

+ 1)) 的形式。 

58. 如果 / i[A + 1] = /i [ ^ ] + 1，而且文件不是有序的，则在下次扫描时对于它必 
然发生某件事情；由习题 5.2.2-1 ，这减少了反序的数目，因此这个文件最终将成为 
排好序的。但是如果对于< m , h[k + l ]^ h [ k ] + 2 ， 则如果最小的键码开始 
时在只 2 中，那么它将决不能移动到其适当的位置去。 

59. 我们使用提示，并认为 K N+1 = K N + 2 = …=1。如果在步骤 j 中1^[ 1] + ; = 
…二 i ^ [w] + 广1，而且如果对于某个 i >/ i [ l ] + =0,则我们必然有 i < h [ m ] 

+ h 因为1的个数少于 n 。 假设々和？是使得/2[々] + j < + 1] +；以及& 

二 0的极小值。设 5 = / i[A + l ]+ j -〖； 我们有 s < h[k + 1] - h \_ k]^k o 在第 5 
步中，必定至少有 A + 1个0已被读写头扫描过，因为 K , = K h [ B 1]+ p S 在该步被置 
成0 ;5 步以后，在心[ 1] + 7 和 K , •(包含）之间，至少剩下 HI - 02个0,同7的极小 

性矛盾。 

第二次扫描放好其次 7 Z -1 个元素，等等。如果我们从排列 NN -1 … 2 1开 
始，则头一^次扫描把它变成为 N + 1 - ” N - n …1 N + 2 - n … N -1 N ，因为 
每当 1</ i [1]+ j 和 / i [ m ]+ j < N 时， + 因此这个界是最好的。 

60 . 假设+ 1] _ 5〉/ i [ A ] 和 ZiQXs ; 如果最小的键码在 - 5 处开始，则 
它在位置 Rj ( i 〉1 ) 处结束。因此 /i [ A + 1 ]^2 /z [ k ] 是必要的；由下述定理的特殊情 
况〖=0,它也是充分的。 

定理 如果72 = N ，以及如果 Kr . Kj^H …， n 丨的一个排列，且如果对于 
l^k < m 和 ，/ i [ 是 + l]^/i [ k ] + h[k — i ] + ， 则对于 l^i + 1 , — •次排 

序扫描将置 K / = / 。 (约定，当^^0时设 /i [ A ] =々 ） 。 

证明对〖用归纳法；如果到步骤〖时键码〖+ 1不在读写头下边，则我们可以 
假定对于某个 s > o , 它出现在位置 + 中，其中 + 因此 

h [ k - t ]^ t ~ s > 0 o 但如果我们考察步骤^ 则这是不可能的，因为按假定这个 
步骤将把元素1放置到位置 + + 中，尽管至少有〖+ 1个较低的头正在 

工作 。I 

(这个条件对于〖=0，1是必 要的； 但对于〖 = 2 则不然。） 

61. 如果数 U ，"*，23| 正在被排序，则上道习题中的定理表明 U ，2,3,4| 找到了 
它们真正的目的地。当诸0和诸1被排序时，可以验证，在步骤-2, - 1 和0中，不 
可能当所有的读写头都读0时，所有不处于这些头之下的位置都包含1;因此上题的 
证明可被推广以表明 I 5，6,7丨找到了它们真正的目的地。最后，由习题53中的论 
证，|8,…，23丨必然被排序。 


习题答案 


63. 当 -2 时，读写头把串 0 p l l 01 3 01 7 0--01 2 r ~ l 01 q 变成为 

••• Ol 2 " 1 — 因此需要州 -2 次扫描。[当读写头在位置1，2,3,5,…，1 + 

2 W — 2 处时， Pratt 发现了一个类似的结 果：串 Om〆 — Ml 26 ” —M — O〆 — 

<2 6 — L ，变成 0々 +1 l a — L 0 〆 — W〆 ' 1 — ……的 2 〃 1 —因此对于这个头'的序列，在 
最坏情况下至少需要 m -「 log 2 m 1- l 次扫描。后一个头序列是特别有趣的，因为 

它已经被用作 P . N . Amstrong 发明的非常精巧的排序设备的基础。[参见 L /. S . 
Patent 3399383 (1965)。 Pmtt 猜测，对于所有输入，这些输入序列提供了真正最坏 
的情况。] 

64. 在快速排序期间，每个键码 K 2 ，… K n 都同 Kl 作过 比较； 设 A - |z \ K } < 
K l \ J B=\j iK ^ K . lo 随后的操作独立地对 A 和 B 快速 排序； 在快速排序和有限 
制的一致算法中，对于 A 中的 f 和 B 中的禁止所有 K { : K ; 的比较，而无限制的一 
致算法不禁止其它比较。 

在这种情况下，我们甚至可以进一步限制这个算法，省略情况1和情况2使得 
仅当明显地做比较时，才把弧加到 G 中，而且当测试冗余性时仅考虑长度为2的路 
径。解决这个问题的另一个办法，是考虑 6 . 2.2 小节的等价树插入排序算法，它正 
好以相同的次序进行与一致算法相同的比较。 

65. ( a ) K a 同进行比较的概率，是^个其它的特定键码不处于和]^之间 

I I X 2 

的概率；这是随机地从丨1，2，…， c z + 2 1 中选择的两个数是相连的概率，也就是 

u + i)/( c, 2 + 2 ) 

( b ) c f 的头 n - 1个值为0,然后是 -2) 个 1 ，（m - 3) 个2, 等等； 因此平均值是 

2Si^U —々）/U + l)=2SL】（（” + 1)/U + 1) —l) = 2(n + l)(^ + 1 — l)-2 〜 

( c ) 合并的“两部分构成的”本性表明，对于这个序列来说有限制的一致算法和 
一致算法是相同的。对包含顶点 N 的对偶来说，诸 c 分别等于0，1，…， N - 2;所以 
平均比较次数同快速排序完全相同。 

66 . 否； 当 N = 5 时，没有以 （1,5)(1,2)(2,3)(3,4)(4 ，5)结束的对偶序列会要 
求作10次比较。[一个有趣的研究问题 ：对于 所有的 N ， 试找出一个（有限制的） 一 
致排序方法，使其最坏情况尽可能地好]。 

67. (Gil Kalai 已经正式宣告使用同他在 Graphs and Combinatorics 1 (1985),65 
〜79中的论文有关的方法，他已给出对于有限制情况的极小性的证明。然而，他的 
证明还未被发表 (0 

68. 每次扫描时一个项至多失去一个反序，所以极小的扫描次数至少是在输入 
排列中任何项的极大反序数。气泡排序策略达到这个界，因为每次扫描都使每个有 
反序的项的反序计数减 1( 参见习题 5.2. 2-1)。可能需要另外的扫描来确定排序是 
否完备，但是这个习题的行文允许我们忽略这样的考虑。 

• 652 - 



5.4 节 


也许不幸的是，通过自动机研究计算复杂性得到的头一个结果，是确定了一个 
排序的方法的“最优性”，而从程序设计的观点看来，它竟如此之 低劣丨 同随机数生 
成的历史相类似，当从一个特定的观点看来某些生成程序是“最优的”，因而被建议 
广泛采用时，实际上却是倒退了好多步。（参见等式 3.3.8-(39) 下面的注释。）教益 
在于最优性的结果通常大量地依赖于抽象模型；尽管这些结果是非常有趣的，但在 

实用中必须明智地来应用它们。 

[ Demuth 曾考虑对于一个 r 寄存器机器（保存 r 的一个因子）和对于一个类图 
灵机的推广。在这种机器中扫描方向可随意地在左右和右左之间摆动。他发现，后 
一种类型的机器可以作直接插人以及鸡尾混合排序；但是任何这样的 1- 寄存器机器 

平均必须通过至少 + ( N 2 - N ) 个步骤，因为每步至多使总的反序数减少1。最后他 

考虑了 r - 寄存器随机存取机器以及极小-比较排序的问题。他的论文的这些部分， 

已在 LEjEjE Transactions 034( 1985) ，296〜310中重新印刷。] 

5.4 节 

1 . 我们可以省略内部排序阶段，但是一般地这样将会慢得多，因为它将增加每 
块数据在外存上读和写的次数。 

2 . 诸路段如同在 （1) 中那样分布，然后带 3被置为 R 1 … R 2000000 5只2000001 … 

R 4000000 4000001 -R 5000000 o 在重绕所有的带之后，一个“ 一路合并”置 了1 和了2分 

别成为 (2) 中 t 3 和 t 4 的内容。然后和 t 2 被合并到： r 3 , 而信息被复写回去并 

再次被合并，总共进行五次扫描。一般地说，这个过程和四条带的平衡合并类似，但 
是在每次合并扫描之间有拷贝扫描，所以共实施了两倍减1次扫描。 

3. ( a ) riog,Slo ( b ) lo gB S ，其中 B = VP (: T - P ) 称为“有效的合并能力”。当 
T = 2 P 时，有效能力是 P ; 当 T -2 P - 1时，有效能力是 v 7 P(P - 1) = P - y - y 

P-h 0( P - 2 )，比士了稍小些。 

4 . +了。如果： T 是奇数而且 P —定是一个整数，则「 T /21 和 LT /2」 给出相同的 
极大值。按照习题3,最好有 P ， 所以对于平衡合并我们将选择 P = 「 T /2 lo 

5.4.1 小节 


1.087 154 


170 


503 

426 ^ 

426 


(503 

1908 

1426 

(612 
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习题答案 


2 .路径 tMHIilMMMIEH®) 将被改变成为 o 

(沿着这条路径我们实际上进行了从一个“气泡排序”！） 

3. and fourscore our seven years/ago brought fathers forth on this/a conceived con ¬ 
tinent in liberty nation new the to/and dedicated men proposition that all are created e - 
quaL 

4- (这个问题稍微含混些；按这种解释，在水库快溢出之前我们不清除内存。） 

and fourscore on our seven this years/ago brought continent fathers forth in liberty na ¬ 
tion new to/a and conceived dedicated men proposition that the/all are created equal 0 

5 .假的。对于所有 P>1， 定义具有 P 个外节点的完备的二叉树。 

6•在步骤 R 6 的幵始处插入“如果 T = LOC ( X [0])， 则转到 R 2, 否则”并从步骤 
R 7 删去类似的短句。 

7 .没有输出，且 RMAX —^直等于 0 o 

8. 如果最初 P 个实际的键码的任何一个是⑺，则这些记录将丢失。为了避免 
00 ，我们可以做这个程序的两个几乎相同的 副本； 头一个副本省略包含在步骤 R4 中 
的 LASTKEY 的测试，而且当在步骤 R3 中头一次有 RQ 关0时它跳到第二个副本处。 
第二个副本不需要步骤 R1， 而且在步骤 R3 中它决不需要测试 RQ。 

9. 例如，假定当前的路段是递增的，而下一个将是递减的。则算法 R 的诸步骤 
除幵下列一处要改动外，将正确地 工作： 在步骤 R6 中，如果 RN(T) =RQ>RC， 则颠倒 

对于 KEY(LOSER(T)) 和 KEY(Q) 的测试。 

当 RC 改变时，步骤 R4 和 R6 的键码测试应当适当地改变。 

10. 令卢 LOC (礼•:] ) 0 如果我们首先置 LOSEROO )— Q 以及 RN (. O )— RQ ， 则算 

法 R 的机制确保了每当我们达到步骤 R 3 时下列条件 为真 ： LOSER (•())， …， 

loserO(p - 1 )) 的值是 | - o, • 1，…， • (P - 1 ) !的一个排列；而且存在诸指针 

jL 0 SER ( V ) |1^0 7 )=01的一个排列，它对应于一个实际的锦标赛。换言之，当 

RNf )=0 时， KEY(L0SER ㈠ ）） 的值是无关紧 要的； 我们可以在他们当中对“失利者” 

进行排列。在尸步之后，所有 RN( V ) 都将非0,所以整个树将是一致的。（对于提示 
的回答是“是的”。） 

追求纯正者可能抱怨，此算法比较未曾初始化的 KEY 值。如果这样的行为太使 
人震惊，可以通过在比如说步骤 R1 中置所有 KEY 值成为0而避免它。 

11•真。（两个键码都取自于定理 K 的证明中的相同的子序列。） 

12.当头一个路段已经结束时，保留在内存中的键码一般比平均值更小，因为它 
们不使它进入头一个路段当中。于是第二个路段可以输出更多的较小的键码。 

14.假定在扫雪车达到它的稳定状态后，它处于随机点 W ，0< W <1， 雪突然停 
止，则倒数第二个路段包含 （1 + 2〃 - u 2 )P 个记录，而最后的路段包含个记录。 

对它乘以 dw 进行积分，就得出倒数第二个路段是^2 - y jp 个记录的平均时间，最 
后路段是 fP 个记录的平均时间。 
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15 . 假 的； 最后的路段可以是任意长的，但是仅当输入被穷尽，而所有内存中的 

记录都属于同一个路段这种相当稀少的情况下才有可能。 

16. 当且仅当每个元素都有少于 P 个反序（参考 5.1.1,5.4. 8节）。考察反序 


表，当 N < P 时概率为1，当时，概率为 P 


N- P 


PIINI 


0 


,5.4. 8节）。考察反序 
(然而在实际的做法中， 
是否有序时，作为一'种 


一次扫描的排序并不太罕见，因为即使当人们怀疑一个文件是否有序时，作为一种 
预防措施，人们也倾向于把这个文件排序。） 

17. 除幵长度为 P 的最后者外，所有的都恰有 「 N / P 1 个路段（“最坏的情况”）。 

18. 在第二次扫描时没有什么变化，因为能够证明，对于一个路段的 
第 k 个记录至少小于前一个路段的 P + 1- A 个记录。（然而，似乎没有简单的方法 
来表征当 P '〉 P 时， P 路替代选择后边接以灰路替代选择的结果。） 


19.如同在 (2) 的推导中那样论证， ( U)dx 


h(x , t 


Kz ，而且 


LI o 这意味着 x 


KLck ， 这一次对于所有： r 有 
:(J + i ^)/ J )， 使得当 x ( T ) = 


L 时，我们有 KT 


- l )/ o 故从 


0起的落雪量是 1 )LJ 


( e - l)P 


20.如同在习题19中那样，我们有 （J + Kt)dx 


K (L — x ) dz ; 因此 x ( 


LKtl ( I 十 Kd 。 水库中积雪量是 LJ 


P 


P ' = 


T 


x ( t ) Kdt 


L(KT 





KT )/ J )) ; 因此 KT 




tJ ， 其中 a 〜 2.14619 是 1 



a 


e a ~ l 的根。路段长度是在 0 


< 了期 间下雪的总量，即 LKT = aP 0 

21.如同在正文中那样进行，但在每个路段之后，在扫雪机再次幵始工作之前等 


候 P - f 个雪花落下。这意味着 ZiUU ) 现在是 KT X 而不是 KT ， 其中 


T 


是额外的落雪所花费的时间数量。路段长度是 LKT 1? x ( 


L(1 


e 


" t i)，p 


LiO > — T / T s 以及灰 


T 


x ( t ) Kdt 




P + LK(T — 了 1 )。换言之，当对于0<0< 


1, P / 


(1 - (1 - 0) e 0 ) P 时，得到长度为 e 0 P 的一个路段 


对于 (X 1 ^(k - 1) T .dx ° h 




Kdt ( x(t + 了）— j ：( iO )， 而对于（^―1)了< 


td dx • h 




KdKL - xU ))， 其中 / i 在扫雪犁的位置处被看作恒等于 KT 。 由此 


得出，对于 O ^ j^k ,0^ , t 




(k - j - u ) 了，我们有 x ( 


L(1 


e 


U ~ d 


FAu)lF 


K 


)) 


o 


路段长度是这即是在稳定状态下扫雪机接连两次离幵 0 点的时间之 


间下雪的 数量； P 是在每次扫雪机的最后速度突变期间清除的数量， S 卩 KT(L - 


工0了））=乙10> — 〃/ FU ); 而且可以证明 f 


kT 


x ( t ) Kdt 有所述形式。 


_注意：结果是，对于々 
路段的雪花个数是 p " 二 


0,所述公式也正确。当^ > 1时，进入雪堆两次的每个 


K~i)T 


X 


) Kd 〖， 而且容易证明（路段长度 ） -f + P " = 


( e - 1) P ， 这是由 Fmzor 和黄泽权所指出的一个现象 。心 （们的生成函数如此类似于 
习题 5.1.3- 11中的生成函数，这是否巧合呢？ 


23 .设 P 


户 P 且 g 


1 — 户 


0 


在积雪中的最初的个雪花已经以随机次序在 


幵头移走之后，头了 i 个时间单位的落雪来自积雪中剩下的 ^ p /个雪花； 而且当旧的 
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积雪扫光时，雪再次均匀落下。我们选择乃使得 _LKTi = 对于 OSfdV 
h(x , t ) = (p +讲其中 g ( x ) 是雪从位置 x 落入雪堆的高度；对于 
t < T , h ( x , t ) = g ( x )^( t - T l ) K 0 对于 

g ( xU )) + ( 丁-丁而对于 T « T ， gU ( t )) =〔T - t ) K 。 因此对于 0 <z 
< T ,/ i ( x (0,0 = ( T - TJK , 而且 x (0 = L ( l - exp ( — " (丁- 丁」））。总的路 

段长度是 LK(T - 7\);从雪堆重新又“循环”回去的总数量是(参见习题 

22); 而且在时间： T 之后清除的总数量是 P = KT(_L - x ( T ))。 

所以当雪堆的大小为 （1 + (5- l ) e s ls)P 时，这个习题的假定给出长度为 （ e 5 / s)P 
的路段。这比习题22的结果坏得多，因为雪堆的容量在习题22的情况下是以一个 
更有利的阶来使用的。 

(/ i ( xU ) d ) 在这样多的问题当中都是常数这一事实是不足为怪的，因为它等 
价于说在系统的一个稳定状态期间，得到的每个路段的诸元素是一致分布的。） 

24. ( a ) 证明实质上是相 同的； 每个子序列的路段和输出路段有相同的方向。 
( b ) 所述的概率是路段的长度为72 + 1而且它为^所跟随的 概率； 当 z ^时，它等 

于 （1 - 1 广/”！，而当 x < y 时，它是 （1 - x ) n ln \ - {y ~ x ) n ln \ 0 ( c ) 归纳法。例如， 

如果第72个路段是递增的，则第 n _ 1个是递减的概率为 >，所以头一个积分适用。 

( d ) 我们求得 f ( x ) = f ( x ) - c - pf(l - x ) - qf ( x ) ，因此 f { x ) = -2 〆 ， 它最 
终导致 fix ) — c(l - qx - poc 1 ) ， c 二 6/(3 + p ) 0 ( e ) 如 果夕〉 eg ，则夕 e x + qe [ ~ x 

对于 0 < x < 1 是单调递增的，而且 r Ip # + qe 1 ^ - e 112 \ dx = ( p - q )( e 112 - l ) 2 


<C 0.43 。如果 g / > <C 


则 pe x + qe 


l 一 


处于 2 V pqe 和夕 


之间，所以 


pe x + qe l ~ x 


2 


(p 



qe + 2 \/ pqe ) | dx ^ 







v^ge) 2 < 0.4; 而如果 p < q , 


则我们可以使用一个对称的推理。于是，对于所有的 > 和 g， 有一个常数 C， 使得 


pe 



qe 


— C dx < 0.43。设 


x 


/ n (工）— /( 工）。则 = 


(1 -e^ 


— 1 


(p 


e 



ge 


1 -x 


C )8 n ( x)dx 


l-y 



p 


e y 


一 1 +工 



n ( x)dx + q 



8 n ( x)dx 


因此如果 J ) < A ，则 



n+i( ： y) 


< (1 - en) • 1.43a, < 0.91a nO (f) 对于所有 


n >0，（1 - x ) n jn \ 是路段长度超过 w 的概率。 （g) 


(p 


e 



ge 


1-0： 


)/( x)dx 


6/(3 + p ) o 

26. (a) 考虑具有 n + r+1 个元素和 72 个自左至右极小值的排列数，其中最右 
的元素不是最小的。 （b) 借助于附录 B 中关于 Stirling 数的定义，利用 



5.4.1 小节 


的事实。 （ c ) 把 r + l 加到均值上，并且利用 S ^ 0 




这一事实，得到 



( b ) 中的公式是由 P . AppelUArchiv der Math , und Physik 65 (1880) ， 171 〜 175 


给出的。碰巧我们有 I =(厂+ 々）！ UW /U ), 其中 f ( z ) 二 z 2 + ?/3 + …= 

mt Lb #V J 

- z _1 ln(l — z) - 1; 因此 C r =[〆]( 厂 + 1 + f ( z 、） e fiz 、，有 k 个循环的 72 个对象的去 


安排，有时以 


； 表示之，它等于 
- 々 」>2 



参见 J . Riordan,An Introduction to 


Combinatorial Analysis (Wiley ， 1958) ， § 4.4 。 

27 . 对于当 P / lP = 2( e~ d - 1 + 6)1(1-26+ # + 20 e — 0 ) 时，稳定状态 
平均路段长度将是 2 P /(1 - 26 + 6 2 + 26 e~ d )o [参见 JWomiation Processing Letters 

21 (1985),239 〜 243]。 

Dobosiewicz 也发现，我们甚至可以更久地继续采用替代选择机制，因为我们可 
以从雪堆队的前端输入同时从它的后端输出。例如，如果 5 P 而且我们继续 
采用替代选择直到当前的路段包含 .209 P 个记录为止，则通过这个修改平均路段长 
度从大约 2.55 P 增加到大约 2.61 P 。 如果 p / iP ， 而且我们继续采用替代选择直 
到在当前路段仅剩下 .314 P 个记录为止，平均路段长度从$增加到大约 3.034 Po 
[参见 Comp. J . 27 (1984),334 〜339,其中还给岀一个甚至更有效的称作“合并替代” 

的方法。] 

28. 对于多路合并，问题比较小，因为 P 保持为常数，而且在每个文件上诸记录 
被顺序地 处理; 但当形成初始路段时，我们最好依照记录的长度来改变内存中记录 
的个数。利用如 2.5 节所述的动态分配策略，我们能保持装满整个内存那样多记录 

的一个堆。 M . A. Goetz [Proc.AFIPS Joint Computer Conf. 25 (1964)，602 〜 604] 已 

经提岀了另一个方法，把每个记录分成为被链接在一起的固定大小的部分；它们在 

树叶处占有空间，但是仅仅前导部分参加比赛。 

29. 顶层的 Y 个失利者节点进到对应的宿主位置。剩下的失利者节点由每个 

有2” - 1个节点的 Y 个子树组成;它们以对称的次序被指定到宿主节点中，即最左 

子树进到最左宿主节点去，等等。[参见 K. Efe 和 N. Eleser,Acta. Informatica 34 


(1997),429 〜447。] 

30.假设宿主节点的，个保持完全的2”^节点失利者树的一个连通的2〃节点 
子图。对于+々该树在级0有一个节点而且在 级/有 2 /_1 个节点。其根 
1 />1级处的一个子树有 2 n + k + l ^ 1 ~ 1个节点；因此，个不相交的 2" 个节点的子 
树的根必定全都在的级上。而且这些子树的每一个在级&上必定至少含一个 
节点，因为在<々的级上仅有 2 k - l <2 n 个节点。由此得岀 “<2^，但由 （ ii ) 和 
( iii )， 在宿主图中的边数至少是， +2(2* - 〖）-1， 因为至少有这么多的失利者节点， 
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它们的父节点在这个宿主中有一个不同的映像。 

[假设 n > k 是必要 的：当 n = k ~ l 时，有一个含 2 k +2 k ~ { _ 2个边的适当的宿 
主图 。] 

5.4.2 小节 



6 


2 




10 


7 


3 



13 


11 


8 



18 


14 


12 


4 


20 


19 


15 


9 


24 


21 


22 


16 


29 


25 


26 


23 




30 


31 


27 


5 







32 


17 









28 









33 


2.在头一个合并阶段之后，所有剩下的虚拟路段都在磁带 了上， 而且它们至多 
有个。因此在第二次合并阶段期间它们全都不岀现。 


3. 我们有 ( D [ l ] , D [2] , ••• , D [ T ]) = (a n — a n — P ， a n - a„_ P + 1 , ••• , a n - ) ， 所以 

这个条件从诸 a 是非减的这一事实得岀。这一条件对于这个算法的正确性是重要 
的，因为在步骤 D 2 和 D 3 中 D[j + 1] 减值的次数决不比 D [ J 减值的次数更多。 

4 . 由于（ 3) ，（ 1_ … -^)( 2 ( 2 ：) = 1 。 而且 〆 z) = (a n + b n + c n + d n + 

e n ) z tl = (= + .•• + z 5 ) a ( z ) + ( 2 ： + ••• + z A ) a{z) + ••- + za(z) = (5z + 4z 2 + 3z 3 + 

2z 4 + 之 5 ).< 2 ( 之） 。 

5 . 设 g p ( z) = ( z ~ 1 ) f p (z) = z p + l - 2 z p + 1 ， 而且设 h p (z) = z p + l ~ 2 z p o 

Rouche 定理 [/. Ecole Poly technique 21 ， 37 (1858 )，1 〜 34 ] 告诉我们，倘若在圆上 
h p( z ) I > I h p {z) - g p (z) I =1，则 /^( 2 ：)和心（ 2 ：)在圆丨 2 ：| = 1 + £ 内有相同个数 

的根。如果必 — teX )， 我们有 | SU ) |>(l + e )々 （l — 0>(1 + 0 — L ) 2 (l — 幻 - L = 
1。因此心有绝对值 <1 的 p 个根。它们是不同的，因为 gcd (心 u )，& u )) = 
gcd{g p {z) ,(p + l)z-2p) = lo [AMM 67 ( 1960)，745 〜 752 。 ] 

6 •设 c 0 = ~ ap(a~ { )lq{a- l ) 0 则对于某个只 > M - 1 ， p ( z) I q( z) _ c Q l (1 _ 

az ) 在 中解析；因此在 [：^]/>( 2 ：)/ g ( z ) 二 c 0 o ：” + 0( i ? — ”）。于是 ， In S = n 

In a + In c 0 + O ( aJR )— ” ）； 而且 /z = (In S/ln a ) + 0(1) 蕴涵着 0((aR) — = 

0 (S — e )。 类似地，设 q = a 2 /> U -”//(«- ” 2 ，^ = - ap / ( a- [ )lq ( a 1 ) 2 + ap 

(a 1 ) g"( a — 1 )/〆 （ a — 1 ) 3 ， 并考虑 p(z)l q(z) 2 - C \/(1 - az) 2 - c 2 /(l _ az) 0 
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7. 令〜 = 2：c 和。= -1/2P 1 。 于是 x p + x ^ x p + z， 所以由等式 1.2. 6-25)，我 

们有收敛级数 0^:22。人 1 - kp 、=2-2^ - P 2- 1 卜 l + Oip 1 !-，。 

注 意：由 此得出，当 P 增加时，习题6中的量 p 变成近似于 bg 4 S。 类似地，在大 

量的磁带上，对于表5和表6两者，系数 c 趋于 1/((4 + 2)ln 《）。 

8. 显然，对于 ? n <0, N ( 0 p) = 1， N ( J ) 二0,而且通过考虑对于头一个和式的不同 

可能性，当 m >0时，我们有 N ( ,f } = Nif )」 + …+ N ( n fl p o 因此 Nif ) : F ( jl p - l0 

[Lehrbuch der Combinatorik : Teubner ， 1901) ， 136 〜137。 ] 

9 . 如果有 1 的话，考虑最左边的那个0的位置，我们求得 Kif } = F ))” 。 

注意：在这样的0和1的序列和习题8中考虑的 m + 1的表 7K 之间，有一个简 
单的—— 对应： 把一个0放置在这个序列的右端，并观察所有0的位置。 

10. 引理 ：如果 w = F/) +…+ 是这样一个表示，而且 …〉 ，则我 

J 1 J m 

们有 n < F] p l \ 。 证明：如果 m 〈/?，则结论是明显的；否则设々是使 A 〉 A + 1 + 1的 

J 1 

极 小者； 我们有6<户，而且由归纳法+…+ F 匕)，因此+…+ 



现在可对 n 用归纳法证明所述的结果。如果 ”>0，则设 ； 是使得的 
极大者。引理表明，7?的每个表示必须由 FjP 加上” - FjP 的一个表示组成。由归 
纳法 ， n - F ( j p ) 有所希望形式的一个惟一表示，而且这个表示不包括所有的数 
F ( - t \ ，…， FjA + t ，因为 j 是极大者。 

注意： 在习题 1.2.8-34 中已经考虑了 p = 2 的情况，它是由 E . Zeckendovf 给出 
的[参见 Simon Stevin 29 (1952) ，190〜 195] 。从 n 的表示进到 n + 1的表示，有一个 
简单的算法，它加工0和1的序列 c 厂 . qco , 使该序列满足 n = Scypjh : 例如，如果 

户= 3,则我们考察右边的诸数字，把 •••() 变成为…1，…01变成为…10，"*011变成为 
•••100; 然后如果需要，就进位到左边，以 “••• lOOO …”代替 “•••0111 …”。(见习题9中 
按此次序列出的0和1的序列。） 一 个类似的数系，已为 W . C . Lynch 所研究 [ Fi - 
bonacci Quarterly 8 (1970) ，6 〜 22] ，他发现 T 一 * 个非常有趣的方法，使它既支配 一 ^个 

多阶段排序的分布阶段，也支配合并阶段。 ^ 

12 . 第々 次幂在它的诸行上逐次包含对于级々 -4 到々 的完全分布，最大的元素 

在右边。 

13. 对级用归纳法。 

14. ( a ) n ( l ) = l ， 所以假定 k>U 定律 T ^= T ( _ 1)( ,- 1) + - + : T U - P)U — n 

表明 KT U + 1 U 当且仅当 T u _ p )( h )< Lu - U 。 设 r 是任意正整数，并设 〆 是 
使 了(„' — ou - dSL ' u -1) 之极小者；则对于所有 ”X Tu - r ) u - i )> Lu - i )，® 
为对于 n ^ n(k - 1) + r ,这个关系是显然的，而且否则 T („ - r ){ k ~ \ (n - r )( k -\)^ 
T n ^ k - \)^ T n ( k - i ) 0 ( b ) 对于 r = - ? /的同样论证表明， T n ' k ' < 了士蕴涵对于所有 
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; >0,7\„二 7 ^<7^_ 7 &;因此这个递推式蕴涵对所有和 kW ， T in '”、 k < 
h k 。 ( C ) 设 /( S ) 是使得 SJS ) 取它的极小值的最小的 72。 当且仅当对所有 

S ，/( S)</(S + 1) 时存在所希望的序列 M n o 假设 n = /( S)>/(S + l ) = 〆 ， 使得 
2]„( S )< S , r ( S )* S„(S + l )> S/(S + l )。 有某个最小的 y 使得 S „( y )< 
S „' ( S ') ，而且我们有 m = 2 „ ( S ") - S " ( S ’ - 1 ) < Tj n ' ( S ') - S ,， （ S ’ - 1) = m ’ 。 

所以 SA i Sf = i ; 因此有某个 〆 < m ， 使得 了 ” 4’ 〈 了 nk ’ ° 类似地，我 

们有 / = S,,(S + 1) — S ,,( S )> S„'(S + 1) — 2，（5) = /， ； 因此2^ = 17； / 々>5 + 1 

> S [ =1 T „, o 由于有某个 6> m ， 使得 TV 々> T ^。 但这同 （ b ) 部分矛 

盾。 

15. 这个定理已为 D . A . Zave 所证明，他的论文已在正文中引用。 

16. D . A . Zave 已经证明，输人（和输出）记录的个数是 Slog T _ 1 S + y Slog T ^ T 

\ og T - { S + 0( S ) 0 

17 •设 T " = 3; A u (x ) — 6 x 6 + 35 x 7 + 56 x 8 + •••, ( x ) = x 6 + 15 x 7 + 

35 j ： 8 +...， T " ii ( j ：) = 7： r 6 + 50： r 7 + 91： r 8 + 64 x 9 +19： r 1 Q + 2： r "。 对于 S 二 144 的最 

优分布要求 T 2 上的55个路段，而这使得 S = 145 的分布不能是最优的。 D . A.Zave 
已经研究了这种类型的接近最优的过程。 

18.设 S = 9 ，T = 3, 而且考虑下列两个型式 


最优多阶段 

# 

零 


或者 

# 

参 


T 1 

T 2 

T 3 

费用 

T 1 

T 2 

T 3 

0 2 1 6 

0 2 1 3 



0 ! 1 6 

0 [ 1 3 


I 3 


0 2 2 3 

6 

I 3 


0 [ 2 3 


1 2 3】 

2 2 

5 


1 ] 3 2 

2 1 

3 2 

3 1 


6 

3 1 

3 2 



费用 



3 1 


9 1 


6 1 6 

9 

32 



9 1 



6 

9 

31 


(还有另一个方法来改进“最优”的多阶段，这就是重新考虑在每个合并阶段的输出 
磁带上，应在哪里出现虚拟路段。例如，合并0 2 1 3 和0 2 1 3 的结果可以认为是 
之％々％々 1 ，而不是0 2 2 3 。于是，仍然遗留着许多未解决的最优性问题。） 


19. 级 

T 1 

T 2 

T 3 

T 4 

a ±h 

心 、 /N 

最后输出在 

0 

1 

0 

0 

0 

1 

T 1 

1 

0 

1 

1 

1 

3 

T 6 
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2 

1 

1 

1 

0 

3 

T 5 

3 

1 

2 

1 

1 

5 

T 4 

4 

2 

2 

2 

1 

7 

T 3 

5 

2 

4 

3 

2 

11 

T 2 

6 

4 

5 

4 

2 

15 

T 1 

7 

5 

8 

6 

4 

23 

T 6 


n 



a 


n 


b n 


c 


n 





d n t n T (是） 

t n + ^ a ?i TU — 1) 


20. a ( z ) = 1/(1 - z 2 - z 3 - z 4 ), t ( z ) — (3 z + 3 s： 2 + 2 s： 3 + z 4 ) l(l - z 2 - 之 3 — 
z 4 ), Yj n ^> i T n ( x ) z r> — jc (3 z + 3 z 2 + 2 z 3 + z 4 )l (1 - x ( z 2 + z 3 + z 4 ))。 D „ = A „ 一 i + 



A n — 


2 



1 , B n = A n — i A ” 


A ” — 


3 



1 ， A” 


A 


n 


-2 


A 


n 


3 


A 


n 



1 


o 


21.333343333332322 3333433333323 33334333333 3333433 333323 T 5 

22. t n — t n - i — t n - 2 = -l + 3[ nmod 3 = 1]。 （这个斐波那契式的关系是从下列 


事实得出的，即 1- z 2 ~2 z 3 - z 4 — (1 —令 Z )(1 - ^ 2 ： ) ( 1 - coz ) (1 - COZ )， 其中 CO 3 — 
1)。 

23.在第 n 个合并阶段的头一半期间，路段长度不是(25)，而是 〜； 在第二半为 
~，其中 


S 







n-4 


这里，我们认为对所有72<0, 〜二 ~ = 1。[一般地，如果 ％ + 1 是 i + — + 化 — P 的 

头项的和，贝 ！ J 我们有 = 心 = 〜― 2 + … + in - r + + L-r-2 + … + ^- P ； 

如果 ％ + 1 是头 - 1 项之和，则我们有〜 2 +…+ t n - r-X + r -1 +…+ 


S n ~ P ， t n 


- 2 + 


_ • # 


+ 


n 



S 


n 


+ 


«»# 


+ h — 


F - 


o 


代替 (27) 和 (28) 的是， = ( L 7 W — i V n ^ i U 7l - 2^-2 — 3 — 3 L 7 W — 4 V n _ 4 



_ # # 


,D n = (U n -iV n ^ l 





( H 2 U 『 3 



1; V , 


( L 7 r? - 1 - j — 2 



1 ，R 


( V , 


2 


u 


n 


3 n ~ 3 - 4 n ~~ 4 



o 


25 . 


^16 

l 12 




R 


? 4 



1 8 2 4 


R 
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习题答案 


R 

8 M6 1 

8 1 

8 ° 

16° 

R 

8 1 


16 1 

16 1 

8 ° 

R 

R 

16 1 


24° 

16 1 

16 1 

R 

24°32 

16° 

16° 

32 1 

( R ) 


26. 当 2" 个路段被排序时，在合并时处理了；7 *2" 个初始的 路段； 每一半的阶段 

(除少数例外）合并 2"- 2 个和重绕个。当 2" +2" -1 个路段被排序时，在合并时 

处理了 n -2 n + (n - ] 个初始的 路段； 每一半阶段（除少数例外）合并 2〃 — 2 个 

或 2" — 1 个并且重绕 2〃 — 1 +2〃 _2 个。 

27. 当且仅当诸分布数的最大公因子是1时它有效。例如，设有六条磁带；如果 
我们分布 （a，6，c，d，e) 于 T1 到 T 5 上，其中>0,则头一阶段产生 

一 个分布 （a — e ，6-6 >，c — 6，以-6,60，而且 gcd(a — e，b — e，c — e，d — e ， e 、= 

gcd“，6，c j，e)， 因为一个数集的任何公因子也整除其它的公因子。这个过程减 
少每个阶段的路段数，直到 g cdU，6， C ，d， 幻个路段都在同一条磁带上为止。 

[如同习题18中所示，在某些虚拟路段的配置下这些非多阶段的分布有时要比 
多阶段优越。这个现象是由 B.Sackman 大约于1963年首先发现的。] 

28. 由（1，0,0,0,0)开始，并且进行下列操作恰好；7次，我们即得任何这样的 

(心6/，^:在卜，6/，^中选择X，并把 x 加到 U，6，c，d，e) 的其它四个元 
素中的每一个上。 

为证明 a + b + c + d + e < a n ，我们将证明，如果在级72上，，则 

总有心，这个证明通过归纳法即可得岀，因为级 
” + 1 的诸分布是 （6 + a，c + a，d + a，6 > + <2，a)，（<2 + 6，c + 6，(i + 6，e + 6,6)， 

(a + c ,b + c , d + c ,e + c ,c) , (a + d , b + d ,c + d ， e + d ,d) ,{a + e ,b + e , c e , d 

+ e , e ) o 

30 .下表是由 J . A. Mortenson 计算岀 来的： 

级 T = 5 T = 6 T = 7 T = 8 T = 9 T= 10 


1 

2 

2 

2 

2 

2 

2 

M x 

2 

4 

5 

6 

7 

8 

9 

Mo 

3 

4 

5 

6 

7 

8 

9 

m 3 

4 

8 

8 

10 

12 

14 

16 

m 4 

5 

10 

14 

18 

17 

20 

23 

m 5 


662 



6 

18 

20 

26 

27 

32 

31 

m 6 

7 

26 

32 

46 

47 

56 

42 

m 7 

8 

44 

53 

74 

82 

92 

92 

m 8 

9 

68 

83 

122 

111 

138 

139 

m 9 

10 

112 

134 

206 

140 

177 

196 

M 10 

11 

178 

197 

317 

324 

208 

241 

M n 

12 

290 

350 

401 

488 

595 

288 

M 12 

13 

466 

566 

933 

640 

838 

860 

m 13 

14 

756 

917 

1371 

769 

1064 

1177 

m 14 

15 

1220 

1481 

1762 

2078 

1258 

1520 

m 15 

16 

1976 

2313 

4060 

2907 

3839 

1821 

m 16 


31. [Random Structures & Algor i thms 5 (1994) ， 102 〜 104] K d { n ) = Ff _ 2 — 

Ni d 〕 d — '。 如果这棵树有 r + 1 个叶而且第々+ 1 个叶有这样 q _ 1 个祖先，它们是 
不同于头 A 个叶的祖先的，则我们有^ d _ 1 = q +…+七。（七个例子树分别对 
应于 1 + 1 + 1 + 1， 1 + 1 + 2,1 + 2 + 1， 1 + 3,2 + 1 + 1， 2 + 2和3 + 1。） 


5.4.3 小节 

1. 当有6,7或8条磁带时，相对于每个记录被处理的平均次数来说，磁带分开 
多阶段是最优的（表 5.4. 2-6)。 

2. 当初始路段数是一个斐波那契数时，这两个方法实际上是等 同的； 但是在其 
它情况下多阶段分布虚拟路段的方式更好些。级联算法把1放在 T 1 上，然后放1 
于 T 2 上，放1于 T 1 上，放2于 T 2 上，放3于 T 1 上，放5于 T 2 上，等等，而且当 p 
= 2时，在步骤 C 8 中决不会有 D [ p -1] = M [/)_1]。 事实上，所有虚拟路段都在 
一条磁带上，而这是比算法5 . 4 .2 D 中的方法更低效的。 

3. (在步骤(3,3)期间在把12个路段放置在： T 3 上之后，分布停止。） 

T1 丁 2 T3 T4 T5 T6 



8 4 6 2 9 3 5 2 6 3 

— 9 1 23 1 17 1 



26 1 


100 1 


4.归纳法。（参见习题 5.4.2-28) 
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题答案 


5. 当 有〜 个初始路段时，第々趟扫描输出长 度为七 的〜^个路段，然后输出 
长度为~的个路段，等等。 

6. f 1 1 1 1 

11110 

1110 0 
110 0 0 

.1 0 0 0 0， 

7. 我们节省+ e 3 〜_ 3 + …个初始路段长度（参见习题 5) ，它也可 
以写成为 a x a n - 3 + a 2 a n - 4 + *•* + 〜 — 2 a 0 ; 它是 [/— 2 ]( A ( z ) 2 ~ A ( z )) o 

8. A ( Z ) 的分母有不同的根和大于分子的次数，因此将 AU ) = y ： q 3 ( p ) Kl - 
p 2：) _ p(l - g jp )) 对于 <?4( P ) = p 的所有根求和。在计算 <?3( P ) 和 <? 4( P ) 中， P 的特殊 

形式是有帮助的。 

9. 鉴于 q m (2 sin A ) 的值，根据⑻和（12)，对所有大的 n 这些公式成立。为证明对 

于所有 n 它们都成立，我们需要知道对于 ( XmCrj ^ iU ) 是当除以 

〜 U )- z 时的商。这可以通过以下几种方法来证 明：或 者使用 （10) 并注意相消减 

少了 <5 V —— <37(^：)<^-1(2：)的次数，或者注意当 z — 00 时， A ( z ) 2 + J 3( z ) 2 

+…+ £( 2：) 2 — 0( 参见习题5)，或者对于 B ( z )， C ( z ) 等的分子，可以求得一个明显 
的公式。 

10 . E ( z ) = ri { z ) A { z ) ; D ( z ) = r 2 ( z ) A ( z ) — r \{ z ) \ C { z ) — r 3 ( z ) A ( 2 ：) — 
r 2 ( z ) ; B ( z ) = r 4 ( z ) A ( z ) - r 3 ( z ) ; A ( z )= r 5 ( z ) A ( z ) + 1 - r 4 ( z ) Q 于是 A ( z ) 
= (1- r 4 ( z))/(l - r 5 ( z )) o [注意， (2 sin 6) - sin (2 )/cos <9; 因此 r w ( z ) 是契 

比雪夫多项式 （- l) w + 1 L/ 27n — JW 2)]。 

11 .证明 f m ( z ) = qi m / 2j ( z ) - "「 W / 21 ( 之 ） 和 fm ( /^,-^ z ) = 1 - r m ( z ) o 然后 

用习题 10 的结果。（分母的这一显式首先是由 David . E . Ferguson 发现的。） 

13.参见习题 5.4. 6-6。 

5.4.4 小节 

1. 当写岀一个递增的路段时，在输岀该路段之前首先写一个含有-〜的“哨兵” 
记录。（而如果这个输出将来是要被从后向前读的，如同在最后的扫描时那样，则 
+〜的哨兵也应写在这个路段的末端。）对于递减的路段，交换-〜和+〜的作用。 

2. 级 〃 + 1 上的最小数，等于级〃上的最 大数； 因此不管在任何特定的行中我 
们排列诸数的方式如何，诸列是非减的。 

3. 事实上，在合并过程中，在 T 2 〜 T 6 上的头一个路段将总是递减的，而在 T 1 
的头一个路段上将总是递增的。（由归纳法。） 

4. 在第二和第三阶段要求若干个“拷贝” 操作； 近似的额外费用是 （log 2)/ 
(log p ) 次扫描，其中 p 是表 5.4.2-1 中的“增长率” 


0 


5.4.4 小节 



5 .如果 a 

是一个串，则令 

a R 表 7 K 它的左-右反向串。 

级 

T 1 

T 2 

T 3 

T 4 

T 5 

0 

0 





1 

1 

1 

1 

1 

1 

2 

12 

12 

12 

12 

2 

3 

1232 

1232 

1232 

232 

32 

4 

翁 _ _ 

12323432 12323432 

2323432 

323432 

3432 

^ ^ W 

n 


B n 

c tt 

D n 

E n 


n + 1 氏 (Af + 1) Q ( Af + 1) D ,( Af + 1) £ n ( Af + 1) Af + 1 



我们有 


以及 

其中 

Qn 


E 

D 


n 


n 


C 


n 


B 


n 


A 


n 


^ n-l + 

-2 八 n - 

^n-3^n-2^n-l 

A ^_ 4 Af _ 3 A ^_ 2 A 

n n - 4 ^ n - 3^ n ~2^ n - 1 


R 

n — \ 



n 


Qn 


Q n \ ( Q n 


-2 



D(Q n 


-3 



2)(Q n 


一 4 



3)(Q n 


-5 



4) ， n ^ 1 


Qo = 0 ，而且对于 rz <0， Q „ = e 。 

这些串 A „， B „ ，…包含和 5.4.2 节中对应的串相同的项，但是按另一种次序。 

注意，相邻的合并数总差 U —个初始路段必是 A 当且仅当它的合并数是偶数时， 
是 D 当且仅当它的合并数为奇数时。诸如算法 5.4.2 D 那样的简单分布方案在把 
虚拟路段放置于高合并数位置中时，不是十分有 效的； 因此，在阶段1和阶段2之间 
计算 Q „ 大概是有利的，为的是帮助控制虚拟路段的设置。 

6.： y ⑷=(+ 1，+ 1， - 1， + 1) 

3； (3) = ( + 1，0，-1，0) 
y (2) = ( + 1 ， - 1 ，+ 1 ，+ 1 ) 
y ⑴ 二 （-1，+ 1，+ 1，+ 1) 

/=( 1， 0,0,0) 

7•(参见习题 15) 顺便说一句，34显然是这样一个最小的斐波那契数 F „， 对于 
它，多阶段排序不产生三条磁带上的个初始路段的最优向后读合并。这株树的 
外部路径长度是178,它胜过多阶段的176。 
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习题答案 



/4 



8. 对于 了 = 4,具有外部路径长度13的树不是 了后进 先出的，而且具有外部路 

径长度14的每株树包括一个一路合并。 

9. 按习题 2.3.4.5-6 的结果，我们可以考虑一株完备的（了-1)叉树 〆 ‘最后”的 

内部节点的次数处于2和： T - 1之间。当有（: T - I ) 9 - m 个外节点时，它们中的 

[_7^/(了 _ 2)」个在级^ _ 1上，其余的则在级上。 

11. 对初始路段数用归纳法，可证其为真。如果存在一个具有 S 个路段的正确 
分布，而且有两个相邻的路段取同一方向，则有一个小于 S 个路段的 分布； 但当5 = 
1时不存在。 

12. 条件 （ a ) 和 （ b ) 是明显的。如果对于某条磁带名 A 和某个 /<7< M 4) 中的 
两个配置之一存在，则由前根次序的定义，节点7必然是在节点彳之下和节点&左边 
的一株子树中。因此勹- r 的情况不能存在，而且 A 必是“特殊”名，因为它出现在 
一支外部分支上。但这同这样一个事实矛盾，就是：特殊名应当在节点〗之下最左 

边的分支上。 

13. 现在编号为4,7，11，13的节点可以是外部的，而不是一路合并的。（这给出 
比多阶段树高1的外部路径长度。） 

15.设磁带名为 A ， B 和 C 。 我们将构造若干种类的树，在植物学上这些树由它 
们的根和叶（外部节点）结构来进行标识： 

类型 r ( A ) 根 A 

类型 s ( A , C ) 根 A ， 无 C 叶 
类型 KA ) 根 A ，无 A 叶 
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5.4.4 小节 


类型 u { A , C ) 根 A ， 无 C 叶，无复合 B 叶 
类型 v ( A , C ) 根 A ， 无 C 叶，无复合 A 叶 

类型 zv ( A , C ) 根 A ， 无 A 叶，无复合 C 叶 

一片“复合叶，，是这样一片叶，它的兄弟不是一片叶，我们可以首先生成一株 5 ( B ， 
C ) 类型的左子树，然后生成如 r ( C ) 类型的右子树，来生成一个3后进先岀类型的 
r ( A ) 树。类似地，类型 JA ， C ) 从类型 4 B ， C ) 和 KC ) 得岀； 类型 以 A ， C ) 从类 
型 w ( B ， C ) 和 w ( C ， B ) 得岀；类型 t ；( A ， C ) 从类型 w ( B ， C ) 和 w ( C ， A ) 得岀。我 
们可以生成一个3后进先岀类型的 KA ) 树，其左子树是 w ( B ， A )， 其右子树是类型 
JC ， A )， 办法是首先让左子树生长，但它的（非复合） C 叶和它的右子树除外；而这 
时，左子树仅有 A 叶和 B 叶，所以我们可以生岀整个树的右子树，然后长岀左左子 
树的 A 叶，最后生成左右子树。类似地，一株 w ( A ， C ) 类型的树可以从一个 u ( B , 
A ) 和一个 t ；( C ， A ) 型的树构造岀来。[习题7的树是一株以这样的方式构造的 

r (A ) 树 0 ] 

令 r (〃）， …，表示按上述过程构造岀来的相应类型的所有"叶树的极小 

外部路径长度。我们有 r(l) = 5(1) = w(l) =0,r(2) = ^(2) = ^(2) =2,^(1) = 
T ； ( 1 ) ^ zi ； ( 1 ) = 5(2) = u (2) = v (2) = 00 ;而且对于 n ^3 

r { n ) ~ n + min ^ ( s ( k )+ r(n - k )) ， u ( n ) — n + min ^ ( v ( k ) + zv(n - k )), 
s ( n ) = n + min ^ ( s ( k ) + t(n ~ k )) , v ( n ) 二 n + min 々 ( u ( k ) + w(n - k )) ， 
t ( n ) = n + min 々 ( u ( k ) + s ( n ~ k )), zv ( n ) = n + min 々 (u (k ) + v ( n ~ k )) 

由此得岀，对所有的 n ， r ( n )< s ( n )< u ( n ) ， s ( n )< v ( n )， V 上及 r ( n )<： t(nX 

w ( n ); 进而， s (2 n ) == + 1) = °°。（后者是 不证自 明的。） 

令 A ( w ) 是由规则 A ( 1 ) = 0, A (2 n ) = 2 n + 2 A ( n ), A (2 n + 1) = 2 n ^ 1 + 

A ( n ) + A(n + 1) 定义的函数；则对所有 n >2， A (2 n )=2 n + A ( n —1) + A (” + 1) 

- （0 或 1)。 设 C 是一个常数，使得对于 4< n <8 0 

\)n 为偶数蕴涵 zv(n )< A (/?) + Cn -lo 

n)n 为奇数蕴涵 w (/?) 和 )^ A(n ) + CV ? - 1。 

(这实际上对于所有 C >| ■都有效。）则通过适当选择々为 LW 2」 ± 1，归纳法论证表 

明，对于所有 ” >4,这些关系成立。但是 A U ) 是当 T = 3 时 （9) 中的下限，且 r { n ) 

< min ( u { n ) , v ( n ) , zv { n )) M 此我们已经证明 A U )< K 3 ( n)<：r ( n)<：A ( n ) + 

县 n - 1。 [常数 鲁还可以改进。] 

6 0 

17. [下列方法首先用在 UNIVAC III 的排序程序中，并在1962年 ACM 排序讨 
论会上作了介绍。] 
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习题答案 


级 

丁 1 

T2 

T3 

T4 

T5 

0 

1 

0 

0 

0 

0 

1 

5 

4 

3 

2 

1 

2 

55 

50 

41 

29 

15 


n b n C]t d n e n 

?7 + 1 5a n + 46 7( + 4a, , + 4b n + 3a n + 3b n + 2a n + 2b n + a n + b n + 

3c" + + a 3c ?; + 2d n + 3c, ; + 2d n + e n 2c n + 2d n + c u + cl n + e n 

为了在初始分布期间 从级〃 到达级〃 + 1，分别插入具有（4,4,3,2，1)个路段的々 i 

个“子级”加到带 （ T !， T 2 ,.. •，了 5 )上，再加上具有（ 4 ,3,3, 2 , 1 ) 个路段的々 2 个“子 
级”，具有（3,3,2,2，1)个路段的々 3 个“子级”，具有（2,2,2，1，1)个路段的々 4 个“子 
级”，具有（1，1，1，1，0)个路段的々 5 个“子级”上，其中 

dn ， k 5 ( e „。 [如果 （h ，…， 々5) = (、 ，…， G ) ， 则我们已经达到级7? + 1。]必要时加 

虚拟路段以充满一个 子级。 然后从 （ T 1， …， T 5) 合并 k x + k 2 + k , + k A + k 5 个路段 

到丁6,从(丁1，…，丁 4) 合并幻+…+々 4 个到丁5，".，从丁1合并&个到 T 2; 然后从 

( T 2, …， T6 ) 合并々 ！ 个到 丁1 ， 从(丁3, …， T6 ) 合并々 2 个到丁2,…，从丁6 合并々 5 个 
到丁5。 

18. ( M . S . Paterson 给岀的解。）假设把记录 j 写到磁带号为~的序列上，至多 

有 C | r | 个记录有一个给定的序列，其中 C 依赖于内部存储的大小（见 5.4.8 节）。 

因此卜 1 | + …+ | r N | = 0(Nlog T N) o 

19. 



20. —个强了先进先岀树有一组了先进先岀标号，其中不存在分别具有如下形 
式 







或 




或 



的 


个分支，这里 A 是某个磁带名，且 i < j < k < l < so 非形式地说，当我们“长岀 
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5.4.4 小节 


-个 A 时，在建立任何新的 A 之前，必须长岀所有其它的 A 。 
21.它是非常弱的先进 先岀： 



22.对于通过例如，对于某些固定的磁带名 A,B,C,D 逐次地的所有岀现，形 
成的任何树表示会岀现这种情况。因为所有这些岀现都为相同形式所代替，后进先 
岀或先进先岀次序在这个树结构中并不造成差别。 



借助于向量模型叙述这个条件：每当 + 或 A = 772) 且= - 1时， 

我们有: yp) +…+ yj 1 ) +义)= 0。 

23. (a) 假定 “级联”阶段（1，."，1， —-1,0)'-! 

…（1，-1，0,…， 0P 把 CG ) 放人中。 （ b) 直接地，因为对于所有 k 9 C ( v ) k < 
C( w )p(c) 如果在 g 个阶段得到 t ；， 则对于某个单位向量 w ， 以及某些其它向量 

w ⑴，…， — ! )我们有 u — u Cl ) —— u W 二 z ;。 因此以⑴ < C ( u )， 从⑵< 

C ( C ( u )),-, v < C [( i ] ( u ) o 因此 Vi + ••• + V T 小于或等于 C [(?] u) 的元素 之和； 而 

后者在级联合并中得到。[这个定理推广了习题 5.4.3-4 的结果。不幸，像这里所 
定义的“阶段”的概念，似乎没有任何实际的意义。] 

24 . 设 + 是把切约化为 t; 的一个阶段。如果对于某个 

=一1，3^ — U =0, …， 3^ U + 1 )=0, 以及 yf 二 —1，则我们可以插人于与 
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习题答案 


之间。重复这个操作直到在每列中所有的 （-1) 都是相邻的为止。然后如果 
: vj z) = 0 和 — 1〉 尹0,则有可能置义⑺―1;最后，每个列由一些+ 1，后边接上一些_ 

1 ，再接上一些0组成，因此我们已经构造了一个阶段，对于某个，它把 
结为 w 。 这个阶段对各列进行排列，它具有形式（1， -^ l ， - l ) a T … （1， - 1，0, …， 
0 ) M - 1,0, … ，0)、 T - 1个关系的序列 

( xi , ••-, x T )< ( x x + x T , ••-, X T _j + x T ,0) < 

( 11 + Xt"—i + 工了，_"，工了 — 2 + 工了―1 + 工了，工了，0) ^ 

(Xl + X T _ 2 + X T _! + X T ， … ， X T — 3 + X 丁 — 2 + X T _ X + X T ,X T — 1 + 

OC ^ j DC ^ y 0) < … < 

(^1 + x 2 + x 3 + ••- + X T , X 3 + ••- + X T , ••- , X T _J + X T , X T ,0) 

表明诸 ( 2 的最好选择是 a T = v T , a T ^i = v T - l , , (22 V 2 , d \ - = 0。而且如果把诸列 

排列成则结果是最好的。 

25. ( a ) 假设外-6 + 1>一>外> < ^1>〜>外-々，并使用（1，."，1， — 1 ， 0 ，…， 

0 … ”"（1， …， 1,0 ，•••，()， ~ 1) v t q ( b ) 对于 1</<了 — 々，认0)的 Z 个最大元素 

之和是 （ Z - l)4 + 〜 + z 。（ c ) 如果在一个 使用々 个输岀磁带的一个阶段中则 

我们显然可以假定该阶段有（1，"*，1，-1,0,…， Or ^ U ， …，1，0, •••，()， - m 的形 
式，且其它 T ~ k 条磁带的每一条用作每个操作的输人。选择 a x = v T — k + 1 ，…， a k 

= t ； T 是最好的。 （ d ) 见习题 22( c )。 我们总有心=1;而且6 = 了-2总是胜过々= 

T - 1,因为我们假定， *1； 的至少一个分量为0。因此对于了 = 3,有 k ' … kq 二 l q 和初 

始分布 （ F g + 1 ， F g ，0)。 对于 ： r = 4, 找到的不占优势的策略及其对应的分布是 

g = 2 12 (3,2,0,0) 

q = 3 121 (5, 3, 3,0) ； 122 (5, 5, 0,0) 

q = 4 1211 (8, 8, 5,0) ； 1222 (10,10,0,0) ； 1212(11,8,0,0) 

q = 5 12121 (19,11,11,0) ； 12222 (20,20,0,0) ； 12112(21,16,0,0) 

q = 6 122222 (40,40,0,0) ; 121212 (41,30,0,0) 

q >7 12 q ~ l (5-2 q ~\5-2 q ~ 3 ,0,0) 

故对于 ： T = 4 和极小阶段合并同平衡合并相似，只是在末尾处稍有曲折（从 
(3,2,0,0)进行到（1，0，1，1)，而不是(0,0,2，1))。 

当了 = 5时，不占优势的策略对于 q =2 n >2 是 1(32)" — 4 ,1(32)" — 对于 g 
= 2 n + 1>3是1(32广— —— 43。（所列的头一个策略在它的 
分布中有最多的路段。）在六条磁带上，它们是13或14,142或132或133,1333或 
1423,然后对于 q >5 为 13 9 — \ 

5.4.5 小节 

1.下列算法为一个表 A[L - 1] … A [1] A [0] 所控制，这个表实质上表示在基数 P 
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记法下的一个数。当对这个数重复加 1 时，“进位”告诉我们何时合并。诸磁带被编 
号成从 0 〜 P 。 

01 .[初始化]置 ( A [ L - 1 ] ，…， A [ 0 ]) — ( 0 ，…， 0 )和 0 。（在本算法期间 ， g 

将等于 ( A [ L - 1 ] + … + A [ 0 ]) mod T)o 

02 .[分布]以递增次序写出磁带 g 上的一个初始路段。置0。 

03 .[加 1] 如果 Z = L ， 则 停止； 以递增顺序输出在磁带 （- L ) mod 了上，当且 

仅当 L 是偶数。否则置 A [ Z ]— A [ Z ] + l , q^(q + 1) mod 了。 

04. [进位？]如果 A [ Z ]< P ， 则返回02。否则合并到磁带 （g _ Z)mod 了上， 

置 A [ Z ]— 0和 q — (q + 1 )mod T ，I 增 1 ，并且返回03。 | 

2 . 记住在每条磁带上有多少个路段。当输入穷尽时，必要时增加虚拟路段，并 
继续合并，直到达到在每条磁带上至多有一个路段和至少一条磁带是空的为止。然 
后在另一次合并中完成排序，必要时首先重绕某些磁带。（有可能从 A 表导出诸路 
段的方向。） 

3. OP TO T 1 T 2 OP TO T 1 T 2 


分布 一 Ai AxAj 分布 D 2 A x Ai A 4 


合并 

D 2 


Ai 

合并 

D 2 


A4D2 

分布 

D2A1 



合并 


a 4 

A4 

合并 

D 2 

d 2 


分布 


a 4 

A 4 A X 

分布 

d 2 

D 2 Ai 


拷贝 


^4^1 

A 4 

合并 

D2D2 

D 2 


拷贝 


A 4 

A 4 A x 

合并 

D 2 


a 4 

合并 

d 5 


a 4 


这时 T2 将被重绕，而最后的合并将完成此排序。 

为了避免无用的拷贝操作，其中路段只是向前向后移动，我们可以在 B 3 的结尾 
处说： “如果输入穷尽，则转到 B 7” ，并且加上下列的新 步骤： 

B 7 .[做收尾工作]置 5— -1，并重复下列操作直到 Z =0: 置 A [ Z - l ， g ]， 并 
置 〆 和/成为使得 A [ Z - 1， 〆 ] = _1 和 A [ Z - l ， r /]= _2的下标，然后转 
到 B 2。 (对于7关 〆 和 J 关 〆 ，我们将有 q = r 和/ < A [ Z - 1+ 1。 ） 如 
果/ 为奇数，升高级/，否则降低之(见下）。然后合并到磁带 r 上，并且 

向后读；置 1^1 - 1, A [ Z , <7 l ， A [ Z ， r ] —/ + 〆 并重复。这里“升 

高”指的是重复下列操作直到 U + (- I ) 5 ) mod : T = r 为止。置 p — (q + 
(- l) 5 )niod T 并且从磁带 p 拷贝一个路段到磁带 g ， 然后置 A [ I , q~\^s + 
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l ， A [ Z ， p ]— - l，g — p 。 而“降低”指的是重复下列操作直到 （-g - (-1)0 
mod 丁 =「为止：置 p^~{q - ( - DOmod T 并从磁带复制一个路段到磁 
带<?，然后置 A [ Z ， g ] — 5, A [ /，/?]—_ 1 ， g — p 。 拷贝操作在磁带 p 上向后 
读，因此它把被拷贝的路段的方向颠倒过来。 当从 P 拷贝到 g 时，如果 
1 )[/ ? ]>0，我们简单地减少0[/ ? ]和增加 D [ g ] 而不作拷贝。 

[基本的思想是 ，一 旦穷尽了输入，则在每个磁带上我们要减少至多一个路段， 
每个非负项 A [ U 的奇偶性告诉我们一个路段是递增的还是递降的。这个变动造 
成差别的最小 S 是 P 3 + l 。 当 P 很大时，这个变动几乎不构成太多的差别，但它确 
定使计算机在某些情况下看上去很愚蠢。算法也应当加以改变以更有效地处理 
S = 1的情况。] 

4 . 事实上，我们可以省略步骤 B1 中的设置 A [0,0]， 步骤 B 3 和 B 5 中的 A [ Z ， g ]。 
[但是 A [ Z ， r ] 必须在步骤 B 3 中设置。]在以前的答案中新的步骤 B 7 确实需要 
A [ Z ， g ] 的值。（除非如同在那里指出的那样，它明确地使用 q = r 这个事实。） 

5. 对于某个 k >0, P 2k - (P — 1)尸 2 卜 2 < S < P 2 \ 

5.4.6 小节 

1. L 23000480 /U +480)」 n 。 

2 . 在所示时刻，该缓冲区中的所有记录都已经移至输出。步骤 F2 坚持，在合并 
时在测试“输人缓冲区是否空？”之前测试“输出缓冲区是否满？”，否则我们将会遇到 
麻烦（除非作了习题4的改变）。 

3 . 否； 例如，如果对于，文件 f 包含键码+ Pd +2 P ， …，则我们可 
以达到 P 个缓冲区 1/ P 满和 P -1 个缓冲区全满的状态。这个例子表明，为了连续 
进行输出，即使允许同时读， 2 P 个输入缓冲区是必要的，除非我们重新分配内存作 
部分缓冲区来用某种方式使用“散列读”。[是的，实际上，如果诸块包含少于 P - 1 
个记录，则并不真正地需要 2 P 个缓 冲区； 但这是不可能的。] 

4. 早一点设置 S 。 （在步骤 F 1 和 F 4 而不是 F 3。） 

5. 例如，如果所有文件的所有键码都相等，则在预报时我们不能简单地作任意 
的 决断； 预报必须同合并处理所作的决断相容。 一 种安全的方式，是在步骤 F1 和 
F 4 中求最小的 m ， 即每当 t < j 时认为取自文件 C [ z ] 的一个记录小于在文件 C [;] 

上有相同键码的所有记录。（实质上，文件号被附加在键码上。） 

6 . 在步骤 C 1 中，也置 TAPE [丁 +1] — 丁 +1 。 在步骤 C8 中，应合并到 TAPE [ P + 

2] 上而不是 TAPE[p + 1] 上。在步骤 C 9 中，置 （ TAPE[1 ]， …， TAPE [丁 + 1]) —(TAPE 
[ 了 + 1] ， … ， TAPE[1 ])。 

7. 在图表 A 中使用的方法是 

(AiDi ) 4 AqDq ( AiDi ) 3 AQD 0 aA 0 D 0 AQ , DiAqDq ( A^Di ) 3 A 0 D 0 aA iDiAq , 

D i AiD i a A ! Di A 。 ，其中 a = ( AqDq ) 2 AiDiAqDq (AyDi ) 2 ( AqDq ) 7 AyDi ( AqDq ) 3 

AiDiAoD 。。 头 一 ■个合 并阶段写 DqA ^ D ^ A ^ DiA 4 D 4 AqDqAi D { Ai Dj A 4 D 4 A 0 Dq 
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5.4.6 小节 

义11) 1 义 () 1) () (义 1 1) 1 ) 4 于磁带5上 ； 其次写义 4 1) 4 义 4 1) 4 义 1 1) 1 义 4 1) 4 义 () 1) () 义 1 1) 1 义 1 1) 1 

A 7 于磁带1 上； 其次写 D 13 A 4 D 4 A Q D Q A 1 Q 于磁带4上。最后的阶段是 




8 . 否。因为至多节约 S 次停止/启动，而且因为无论如何输入磁带（不是输出磁 
带）的速度总是要支配初始分布时间的。图表 A 中使用的分布方案的其它优点远远 
抵消了这微小的缺点。 

9. P = 5 ,B = 8300, B / = 734 ,S = r(3 + 1/ P ) N /(6 P / )1 + l = 74, o ；^1.094, a ^ 

0.795; 〜-1.136， 〆=〆 二 0;等式 (9) 〜855 s ， 我们对它们附加初始重绕的时间后 
总共为 958 s 。 合并时间中节省大约1 min , 不足以补偿由于初始重绕和换磁带所损 
失的时间（除非也许我们处于一个多道程序设计环境中）。 

10. 在标准多阶段合并期间，重绕涉及该文件的大约54% (表 5.4.2 -1 中的“扫 
描/阶段”列），而且由习题 5.4.3-5 和等式 5.4. 3-(13)，在标准级联合并期间最长的 


重绕近似地包括文件的 J 〜义 （4/(2 T -1)) cos 2 ( tc /(4 T -2))<&。 

11 .仅仅初始和最后的重绕利用到“高速”的特征，因为当这个磁带卷包含整个 
举例文件时它仅仅比 10/23 满一点。利用例 8 中的 tt = [ . 946 In S - 1 . 204 ] , 7 r' = 
1/8, 我们得到对于例 1 〜 9 的下列估计的总数，分 别为： 


1115， 1296, 1241, 1008， 1014， 967， 891， 969， 856 

12. ( a ) 使用 4 P + 4个缓冲区的一个显然的解决方法，就是简单地从成对的磁 
带同时读和写。但是注意，三个输出缓冲区是足够的 ：在一 个给定的时刻，我们从一 
个缓冲区执行第二半写，从另一缓冲区执行头一半写，而输出到第三个缓冲区。而 
且这对于输入缓冲区状态提出了相应的改进。使用一项稍微弱化的“预报”技术可 
以证明 ，3 P 个输入缓冲区和3个输出缓冲区是必要的和充分的。肖智仁提出了一 
个更简单和更优越的方法，它把一个“向前看的键码”加到每一个块区中，以指明后 
继块的最后键码。肖智仁的方法要求 2 P + 1个输入缓冲区和4个输出缓冲区，因而 
这是对算法 F 的一个直截了当的修改。 

( b ) 在这种情况下，《的很高的值意味着我们必须对数据进行五到六次扫描，它 

消除了双重快速合并的优点。这个思想在八条或九条磁带上实现时效果要好得 

多。 

13. 否，例如考虑正好在 A 16 A 16 A 16 A 16 之前的状态。但可处理两个满卷。 
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14. 



15. A 矩阵有形式 



’B 10 z 

• 

B n z 

… B ln z 

1 - z 

• 

• 

A = 

W 

• 

1 z 

… B nn z 

• 

1 — z 


0. 

..0 

1 0 

0 


、 0* 

••0 

0 0 

0 , 



B n0 + B nl + *** + 


TD 

^nn 




因此 


det ( I — A ) 




det 


1 - Bio ^ 


— B n0 z 

0 


— B u z ••• — B^ n -i)z - B ln z 

— 1 z ... 1 — -Bn(n-i) ^ B nn z 

0 - 1 1 


而我们可以把所有列都加到头一列上，然后提出因子 （1 - ^)。结果如（2)有 
/ i 0 ( z )/( l - Z ) 的形式，且 c / Q ) = / iQ ( l )， 因为 / 1 0 ( 1 )參 0 ，且对于| 2 ：| < l ， det ( j - A ) 參0。 


5.4.7 小节 


1 .在基数交替地为 P 和 ： T - P 的数系中从最低位有效数字到最高位有效数字 
进行排序。（如果把数字对偶组合在一起，则我们实际上有 P •(: T - P ) 的一个纯基 
数。例如，如果 P = 2 和 ： T = 7, 则这个数系是以一种简单的方式同十进记号相关的 


“双五进制”。） _ 

2 .如果 K 是0和 - 1之间的一个键码，则设 F n ~ l ~ K 的斐波那契表示是 



在 a ; - _ 1 * * * a ! 


..+〜厂 2 ，其中七为0或1，而且不出现两个连续的1。在阶段』之后， 
的递减次序下，磁带 (7 + 1) mod 3包含具有 a ,=0 的那些键码，而磁带 


(；'-1) mod 3包含具有= 1的那些键码。 

[想像具有两个袋子 “ 0 ” 和 “ 1 ” 的一个卡片排序机，并且 考虑^ 张已经在 n - 2 

列穿上 键码〜 的卡片的排序过程。把这些卡片排成递减次序的惯常步骤是 

从最低位有效数字开始，这可以简化，因为我们知道每次扫描末尾时在“1”袋中的每 


件事物下次扫描时将转入“0”袋中]。 

4 .如果在级2上有一个外节点，则我们不能够构造这样一株好的树。否则，在 
级3上至多有三个外节点，在级4上六个，因为每个外节点应当都出现于相同的磁 


带上 
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5.4.8 小节 


5. 



6 9 8 


6 . 09，08，…，00，19，…，10，29，…，20，39，…，30，40，41，…，49，59，…，50，60， 
61，…，99。 

7 .是； 首先分布诸记录于越来越小的子文件上，直到得到一些单卷的文件为止， 
这些单卷的文件可以独立地排序。这对偶于下列过程 ：首先 对诸单卷文件进行排 
序，而后把它们合并成越来越大的多卷文件。 

5.4.8 小节 


1. 是。如果在选择树中我们交替地使用递增和递减次序，则我们实际上有一个 
阶 P 的鸡尾混合排序。（参见习题9。） 

2. 设 Z N = Y N - X N ，并注意到 （N + l ) NZ N + 1 = N ( N - l ) Z n + N 2 + N ，即可解 
Z N 的这个递 推式； 因此 

Z N 二 j(N + 1) + ( M 3 + 2 )| n(N - 1), 对于 N > M 
现在消去 Y N 并得到 


X N 


20 




N 




(H 


N+1 


— H m + 2 ) 



2 


N 



M 



2 


2 /M 



2 




(N + 1) N(N 


1 ) 


(M + 2 )(M + 1 )M 


+ 


3 M 



4 


M + 2 ’ 


N > M 


3 .是; 利用类似于定理 5.3.3 L 的一个构造并用它来分划文件，即可在 O ( iV ) 步 


内求一个中间元素 


0 


由 R.W.Floyd 和 A.J. Smith 给岀的另一个有趣的方法，是在 


O ( iV ) 个时间单位内合并两个 iV 项的路段 如下： 把诸项连同它们之间的空格，散布 
在诸磁带上，然后对每个空格逐个地用一个指明刚好居于该空格之前的项的最后位 
置的数，填入其中。 

4.有可能把对于层 U ， …，/> + 1丨的一个调度和对于层 U ， …， d 的一个调度结 


的 


个调度结 


合在一起 ：当前 边的调度首先达到层/> + 1时，向上到 g 层并进行后一个调度（利用 













题答案 


当前的电梯内容就好像它们是在定理 K 的算法中“额外的”个人那样）。在完成了该 
调度之后，回到层 p + 1并且恢复以前的调度。 

5. 考虑6=2, m =4及算法的下列行为 

楼层7: — 47-六77- 

5667 4566 

楼层6: — 23 - /23 \66 - 

5667 2345 

楼层5: — 14 - /-14 - \45 —— 7* - 

5667 1234 2345 

楼层 4: — 71 - f 15- Vn - 

5566 

楼层3: — 63 - f 23- 

2556 

楼层2: — 62 00 

0055 

楼层 1: — 55 - f 00- 

0000 

I 

现在 2( 在电梯里）小于 3( 在楼层3上）。 

[在构造了这样一个例子之后，读者应该能看出怎样来揭示在定理 K 的证明中 
所需要的较弱的性质。] 

6 . 设 是使乂 <6 ;和卜 >6) 的极小者。引进一^个新的人，他要从 i 层到 j 层 
去。这对于任何々都不会增加 max ( ， A +:，1 ) 或 max ( b k ， b ' k ) 。继续进行这过程 

直到对于所有 J . b ^ b ) 为止。现在注意若在步骤 K1 和 K 3 中以心代替6 ,则正文 

中的算法仍有效。 

8 . 设这个数是 P „， 且设 Q „ 是使得对于 l < k < n ， u k = l 的排列数，则 P n = 

Qih - 1+ + …+ Q „ Po ， jPo = 1。 可以证明，对于 =3”— 2 (见以下）， 

因此用生成函数可推岀 

P n z n = (1 — 3z) I (1 — 4z + 2z 2 ) — 1 + z + 2z 2 + 6z 3 + 20 之 4 + 68 之 5 + … 

2 P n = (2 +42 ) n ~ l + (2 1 

为了证明 Q „ = 3 n — 2 ，考虑三进序列 x l x 2 ,,, x n ，使得 X ! =2, x „ =0且对于1<々 
< n ， 有 下列规则定义了在这样的序列和所希望的排列 <2^2之间 
的—— 对应： 

' max | j I (j < k ^ lXj = 0) 或 j = 1 丨，如果 a = 0 
a k — < k , 如果 x k = \ 

.min I j I {j > A 且:^ = 2 ) 或 j = w 丨，如果 a = 2 

(这个对应是由作者同 E . A . Bender — 起得到的。） 

9 . 鸡尾混合排序的扫描次数是2 max ( ，…， w „)_(0 或1)，因为每对扫描(左- 

右-左)都使得每个非0的 w 减1。 

10 . 从一个分布方法(快速排序或基数交换）开始，直到得到一些单卷文件为止。 
而且要耐心点。 
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5.4.9 小节 


2 




X 


mod 


2 


圈转动。 


2 •对于固定的 A ， g ， r 和 2 •关 〆 ，々=屮和^ + 1 = av 的概率是 f ( q , r , k ) L \ L \ 


( PL —2 L )!/( PL )!， 其中 


f ( q ， r ， k ) 


k 

-1] 


' k - q 、 


PL - k - V 

/ 


— 1, 


、厂 _ 1 ) 


,L - q > 

V 


PL 


k 一 1 一 L + q 


L 


r 



而且 




l^k<PL 

l^g 9 r< L 


q 


r 


f ( q,r y k ) 



q 


r 


l<g ， r^L 


PL 


1 


2 L - 1 


/ 


q 



r 


2 


q 


2 L 


q 


r 


L 


q 


PL - 1 

^2L-l 

[2 L - lj 


对于固定的々，和 f ，々 =(2^ 

/(PL 

g ( k y q ) ， 

'[L } 


和々 + 1 = ^i( q + \) 

其中 ，<?) 


的概率是 



以及 


l^k<PL 

l ^ q<L 


= 2 

l^q<L 



= (L - 


[SICOMP 1 (1972)，161 〜 166。] 

3 .在 2^ m ^ min (9, rz ) 的范围内取 (5) 的极小值。 



4. ( a ) (0.000725(7^ + I ) 2 + 0.014) L 0 ( b ) 把公式 （5) 中的 “amrz + 如”改为 

“(0.000725(^ + l ) 2 + 0.014) n ”。 [计算机的实验表明，通过这个新的递推式定 
义的最优树，和对于 a =0.00145,0 = 0.01545 由定理 K 所定义的那些最优树非常 
类似； 事实上，当 30< n <100 时，对于两个递推式都是最优的树是存在的。本题中 
提出的修改，如同正文中的例子那样，在 ” =64或100时，节约大约1096的合并时 
间。这种风格的缓冲区分配已于1954年由 H . Seward 所考虑，他发现四路合并使寻 

找的时间极小化。] 

5. 设 A W U )， B W U ) 表示其所有的 n 个叶分别在（偶，奇）级上的 m 株树的 
最优集合的费用。则 AJ 1) = 0，仏（1) = « + A 当 M >2 时像在 （4) 中那样 

定义 A w ( rz ) 和 B m ( n ); A x ( n ) = min 1<m<n ( amn + ( rz ) ) ， A ( rz )= 

mm 1<m<n (amn + + A m ( n )) o 后边的等式是正确定义的，虽则 Ajrz ) 和 B x { n ) 

是互相定义的！ 
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习题答案 


6 • 


或 


A 1 (23) = B 1 (23)=268 0 [奇怪 ， rz 二 23是仅有的小于等于50的具下列性质的值， 

对于它，在奇偶性没有限制的情况下，任何具有 n 个叶的相等奇偶性的树都不是最 
优的。也许它是当《 = /?时仅有的这样的值。] 

7. 考虑在任何树中的诸量 ad \ + pe 1 ，…， ad „ + ， 其中义是对于第 j 片叶的次 
数之和，而&是路径长度。对于权 — 的一个最优树将有 … 

^ ad n + pe n o 总是有可能重新对下标排序使得 ad i i =…=+化，其中头々 

片叶被合并在 一 '起。 

9 .设 d 极小化 （am + /?)/ In 7?2。使用凸性的 一 '个简单归纳法证明 Ai ( n )^- 
{ad + p)n logjn ， 而且当 n = 时等式成立。一个适当的上限从完备的 d 叉树得 
到，因为对于 n = d t + ( d ~ l ) r ,0< r < d t 它们有 D (5) =处： （5) ，£： (5) m + 办。 

10. jasroc 6 (1974) ,216 〜 229。 

11. 利用习题 1.2.4-38,当 2.3 q — l <： nlm <3 q H , f m ( n )^3 qn +2( n ~3 q m ); 
当 3 q ^： nlm ^2*3 q 时， / w ( n ) = 3<2 tz + 4( n - 3 q m ) 0 于是 / 2 ( n ) + 2 n ^- f ( n ) ，而且 
当且仅当 4*3 9 ~ 1 ^ rz ^2 , 3 9 时等式成立； / 3 ( rz ) + 3/2 = f ( n ); f 4 ( n ) + 4 n ^ f ( n ), 
而且当且仅当 n = 4*3 9 等式成立；对所有的 m ^5 , f m ( n ) + mn >/( rz ) 。 

12 . 利用描述一，或 2:2,2:3,2:2:2，."， LW 3 」：LU + 1)/3」: 
LU +2)/3」 ，…; 对于 4*3 9 < n <4*3 9 + 1 这给出其所有叶在级(？ + 2上的树。（当 n = 
4 *3 9 时，形成两株这样的树。） 

14. 穷举并考察 rz 的所有分划，对于 n = l ，2,3 …，可找到下列树的 描述： - ，1: 
1,1:1:11:3:3,3:3:3,1:3:3:夂 
3:4:4，3:3:3:3,3:3:3:4,3:3:4:4,3:4:4:4,4:4:4:4, …， 5:6:6:6:12,6:6:6:6:12, 
6:6:6:6:13,…。（这些次数似乎总是<6,但这样一个结果看来十分难以证明。） 

15. 如果 a 个人开始时上了电梯，则集中率在头一次停止时至多增加 a + 6。当 
它下一次停止在最初一层时，比率至多增加 b + m - a 。 因此在 A 次停止之后，比率 
顶多增加 kb + (k - 1) m 。 

16.11 次停止：123456至层2,334466至层3,444666至层4,256666至层5, 
466666至层6,123445至层4,112335至层5,222333至层3,122225至层2,111555 
至层 5， mm 至层 1 。[这是极小的，因为由对称性，当电梯的容量任意时，停十次 
的一个解法，都可重新安排成依次停在层2,3,4,5,6, p 2 , p 3 , p 4 , p 5 , 1上，其中 
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5.4.9 小节 


是 U ，3,4,5| 的一个 排列； 这样的调度只有当 b > S 时才可能。参考 Mar ¬ 
tin Gardner ^Knotted Doughnuts (New York : Freeman ，1986) ，第 10 章。] 

17 .至少有 （6 n )! M ! w 个 配置； 而且在 s 次停止之后由给定的一个停止可以得到 
的这个数至多是 + 桃 ^ 5 ，由习题 1.2.6-67 它比 u ( (6 + m ) e ! b) b y 

小。因此由习题 1.2.5-24 某些配置要求 

5 (In n + b(l + ln(l + mjb ))) > ln ( 6n )! - nl n b \ > 

bn In bn — bn — n((b + 1 ) \n b — b + 1 ) 


注意：当 x 和 3 ; 都为正时，使用 l/(：r + ^ y )>^~ niin ( l /: r ， l /： y ) 这一事实，我们可 


以以下列方便的形式表述这个下限 

nlog ( 1 + n ) 
log(l + mlb ) 

A . Aggarwal 和 J . S . Vitter，CACM 31 (1988),1116 〜 1127 已经得到相关的结 
果，他们还建立了匹配的上限 




O 


mm 


nb , 


nlog(l 



n 


) 


log(l + ml b ) 


关于对若干个磁盘的扩充，也参见 M . H . Nodine 和 J . S . Vitter,ACM Symposium on 


Parallel Algor : thms and Architectures 5 (1993 )，120 〜 129 。 

18 . 停止的预期数是 A ，其中 A 是至少需要 s 次停止的概率。设 1 = 1- 
久 + 1 是至多需要停止5次的概率。于是习题17表明仏</(5-1+ b = 0])， 其中 
/ U ) 二 6! V /( h )!， 以及 a = n ((6 + 如果 /U —1)<1</ U )， 则 SmA 

^Pi + …+ 九二 Z - (<?0 + …+ - ( /(0) + /(0) + …+ /(t - 2))>Z - 

(a 1 — ’ + a 1 ’ + …+ a 1 )^-t ~~ 1>L - 1 。 

19 . 考虑向后进行步骤 ( g )， 把诸记录分布到箱子 1 中 ，然 后箱子 2。 这个操作恰 

巧是步骤 （ iv ) 在键文件上模拟的操作 。 [Princeton Conference on Information Sci ¬ 
ences and Systems 6 (1972) ， 140 〜144。 ] 

20 . 内部排序必须小心地谨记分页的要求来选择;如果实际的内存很小，则诸如 
Shell 排序、地址计算、堆排序以及表排序方法都将是灾难性的，因为它们要求大量 
页的“工作集合”。快速排序、基数交换以及顺序分配合并或基数排序是适合于一个 


分页环境的更好得多的方法。 

一个外部排序的设计者能做的某些事情，实际上不可能包括在一个自动分页的 
方法中。这些事情是： （ a ) 预报下一次应该读的输入文件，使得当需要时就有数据可 
用； （ b ) 按照硬件和数据的特征选择缓冲区大小和合并的次序。 

另一方面，如果程序员很仔细，而且知道所使用的实际机器的性质，则一部虚拟 

机器相当容易编程序，且它能给出不坏的结果。 Brawn ， Gustavson 和 Mankin 完成了 
关于这个问题最初的实质性的研究 [CACM 13 (1970) ，483〜494]。 

21 .[(L - 7 )/ D ] ;参见 CMath ，等式 (3. 24)。 
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习题答案 


22. 在阅读了包含的一组 D 个块区之后，在阅读下一组 D 个块区之前，我们 
可能需要知道 a ; + D ^。 而且如果我们以来存储 a + ，我们也需要在某类文件 
标题中的值…， a D _ 2 来使这个过程开始。 

但是对于这个方案，在我们已经计算 … a 2D~2 之前我 们本能 写块区 … 
，所以我们将需要 3 D - 1个输出缓冲区而不是 2 D 个来使写保持连续。因此 

把诸 a 放在一个分开(短）的文件里更好。[对于随机分片同样的分析也适用。] 

23. ( a ) 算法 5.4.6 F 需要4个输入缓冲区，每个超块区的大小为 DB 。 (如果我 
们也计算输岀的缓冲区，对算法 5.4.6 F 我们总共有 60 DB 缓冲区记录在内存中，而 
对于 SyndSort (同步排序）有 5 DB 0 ) 

( b ) 当读一组 D 个块区时，我们需要供给以前的 D 个块区的缓冲空间，以及对 
于总共 (2 D + 1) B 个记录的一个耒完成的块区。（输岀需要另外的 2 DB ， 但是对于 
输入进行2路合并的许多数据操作产生比较少的输出。） 

24. 设在年代次序下的第 Z 个块区是路段&的块 区力； 特别是，对于 KKPa 

二0和 & = Z 。 我们将在时间〖制时读该块区，其中 

t ikd = | | r | 1 ^ r ^ / 和々 r = A 以及+ j r ) mod D = d \ \ 

是在按年代的盘 d 上路段々的块区个数，而且 d - { x u + j t ) mod D ，设 U]k 二 
I I r I l ^ r^Z 和心 = A 丨 I ; 于是 


tlkd 


^ u ik — {d - x k ) mod D 一 

D 


因为当 l < r < Z 和 l = A 时 a 跑遍值0，1，…， wl 。 对于 （19)，（20) 和 （21) 的例 
子，序列 o 是 


11111 22223 43456 34567 82345 67893 ••- 

如果 Z > P ， 当我们从在编年次序下的第 Z 个块区开始合并时需要的缓冲块区 
的个数是 h + D + P ， 其中是&的“磁带有相等的反序”的个数，即 | | r | r > Z 和~ 

I ，这即是我们已经阅读但还未来得及使用的满缓冲区的 个数； D 表示下一个 

输入所要用的缓冲区， P 表示部分满的缓冲区，我们而且正从中进行合并，（要特别 
小心，使用像在 SyncSort 中的链接时，我们可能把后一个要求从 P 减少成 P -1， 但 
是额外的复杂性大概使这不值得。） 

所以归结‘起来问题是得到对 t 的一个上限。我们可以假定，输入路段无穷地 
长。假设元素 | h ，…，^丨中 5 个大于^ ; 则 t t 有 t L D - I + S 磁带有相等的反序，因为 
恰有 oD 个元素是的。由此得岀，当5 = 0时极大值岀现，而且0是自左到 
右的极大值。我们有 = 因此由上面对于0的公式 


Ii ^ inax ( t t D - IX 

i>p 


S( 


u lk 


(d - )mod D + D - 



p 

P(D - 1) - YM — )mod D ^ 
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P(D - 1) 


min 

0^d<D 


X 

y ^ j(d - x k )mod D 


因而存在编年次序，对于它们来说，可达到这个上限。 


假设 x, 中的 r, 个等于 


我们要选择 A 使得 min 0 ^ 1< D sd 是极大的，其中: 
Hid - t ) mod D ) r tQ 我们可以假定极小值在 d 


i(d - x k ) mod D = 2 fL—o 1 (( d - ^ ) mod D ) r t 。 我们可以假定极小值在 d = 
处出现。于是心= 5o + P _ qD ，5 2 = 心+ JP — r 2 D ， •• •因此我们有 ri ^ iP / D ] , r 1 


0 



r 2 <L2P/Dj, 


由此得出，由习题 1.2.4-37, 极小值是 


D-1 


^0 


(D - l ) r x + (D - 2)r 2 + 


+ r D -i< 





UP - 1)(D 


1) 



gcd(P,D) - 1) 


对于1< 7 <尸，当 x 7 


r；D/pi 时，达到这个上限。 


如果我们有每个含 B 个记录的 J 


max 


+ D + P 




^-PD + yD + yP + ygcd(P, 


D)-l 个输入缓冲区，通过这样的X,，我们可以以全速来处理每个编年次序的序 


列 o ( 当 D 




2或3时，这十分之好。) 


25.注意在时间4时，我们回头来读磁盘0的 



活动的阅读 

活动的合并 

草稿 

等待 

时间1 

e o ^ oSo a o c o 

- - - - — - - - 

( - ) 

a 0 

时间2 

f idodid 2 fo 

ao 

boc 0 ( e 0 g 0 ) 

^0 

时间3 

^2^ oe 2 gid 3 

a 0 6 0 c 0 <i 0 

eofogo ( d l d 2 fi - ) 

ho 

时间4 

fieibxgxax 

aoboCQcloeofogoho 

diidieid^f \ g \ a 2) 

ei 

时间5 

^2 fih x e 1) g 1 

^ obo c o ^ i e ifoSo^o 

d 2 e 2 d 3 a 1 f 1 big 1 L () 

a 2 

时间6 

^4^3/3^2^4 

a 2 b 1 c Q d 3 e 2 figih 0 

fie ^ h l g 1 - ) 

d ^ 

时间7 

cia 3 / 3 ? 

^2^1 c 0 ^4 ^3/2^1 ^0 

( h l b 2 g 2 a 3 f 3 e 4 - ) 

C \ 

时间8 

? d 5 d 6 ll 

a 2 b 1 c 1 d A e 3 f 2 gih 0 

h \ b 2 g 2 a 3 f 3 e 4 (?) 



26. 当正在读 D 个块区和正在写 D 个块区时，在 （24) 的假定之下，合并过程可 
能生成多达 P + Q - 1个输出的块区。（不是 P + Q， 因为只有一个合并缓冲区变成 
完全空的。)读和写一样地快，所以对防止输出障碍来说 D + P+ Q-1 个输出缓冲 
是必要和充分的。 

然而，平均说来，对于每 D 个输入块区，至多有 D 个块区是供输出的，所以在实 
用中 3D 个输出缓冲区将是足够的。 


27 . (a) E n (m 
显然，且 


…, m 


其中％是某个瓮至少包含 i 个球的概率 
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习题答案 


n-\ 

Qf y^j Pr (^ k 至少包含，个球） = nFv( S n (mi，'- ,m p ) ^ t) 

( b ) 5 W 的概率生成函数是 

p(z) = JJ (1 + (z - l)r k jn) 

k — \ 

其中 Qk~\~ m kl w 」和 r k — m k mod n , 现在当 a ^ O 时， 1 + (1 + a / n )” 和 1+ ar/n 

<( l + a / n ) r ; 因此我们有 Pv(Sn (mi ， m p )^ t)^(l + a)~ l p(l + a ) ^ ( 1 + 

a)~ 1 TT/= i (1 + al n) m k = (1 + a ) ^ (1 + a/n) m 0 

如果〖</^/^，在所述的极小中我们用“1”的项。如果 t > mln , 当 a = ( nt ~ 
m ) I (m - Z ) 时量 （1 + a ) — ’（ 1 + al n) m 取它的极小值 （ 72 - \ ) m ~ t m m / ( n m t l (m ~ 
tY 1 — 1 、。 

28 .数值的证据看来支持这个自然的猜测。 例如： 我们有 


E 10 (l,1,1,1,1,1,1,1) 

= 2.3993180, 

E\o(2,2,2,2) 

二 2.178 ， 

E 10 (4,3 ， l) = 2.00, 

E 10 (2,l,l,l,l,l,l) : 

= 2.364540, 

£ 10 (3,2,2 ， 1) 

-2.166 ， 

Eio(5 ,2,1)= 

=1.98, 

E 10 (2,2,l,l,l,l) = 

: 2.32076 ， 

Eio(3,3,l,l) 

= 2.152 ， 

Eio(6 ， 1 ， 1) - 

-1.94, 

E 10 (3 ， l ， l ， l ， l ， l) = 2,29958 ， 

Eio(4,2,l,l) 

= 2.138 ， 

E 10 (4,4)= 

1.7, 

£io(2 ， 2 ， 2 ， 1 ， 1)- 

2•2628 ， 

Eio(5,1,1,1) 

= 2.090 ， 

E 10 (5,3) = 

1.7, 

E 10 (3,2,l,l,l) = 

2.2460 ， 

£io(3,3,2) = 

= 2.02, 

E l0 (6,2)~ 

1.7, 

£ 10 (4 ， 1 ， 1 ， 1 ， 1)- 

2.2076, 

E\q(4 ,2,2) : 

= 2.01, 

Eio (7,1) — 

1.7, 


29. ( a ) 在时间〖时，所有磁盘所读的那些块区，都是不早于时间 f 时标记的块 
区才出现的。一旦它们已被阅读，下 Q 个块区决不从草稿缓冲区删去。因此在磁 
盘 j 上有关的块区都在小于等于 Z + iV 7 的时间被 阅读； 在^ + max ( N 0 ，…， U 

的时间它们必定全都参与到合并当中。 

( b ) 在一个加标记的块区之后如果第 Q + 1 个块区未被删去，则相同的论证适 
用。否则以前的 Q 个块区未被标记，因而 Q + 2个块区不可能全都在不同的磁盘 

上。 

( c ) 把编年顺序的块区分成为大小 Q + 2的一些组，并且考虑任何特定的组。 
如果从路段 I ^ M k 个块区，则数 iV 7 在对于 w = D 和 w = Q + 2 的一个循环占据问 

题中，等价于第7个瓮中球的个数。因此在任何组中预期的标记了的单元数至多是 
习题 27( b ) 中的上限。把这上限叫做& ( w )， 我们可以取 r ( d ， m ) = ( dim ) 

e d *( m ) o 

[实际上，当 m 很小时，这个函数 r (2， m ) 不是对 w 单调的。因此对于表2中 
的 r (2,4) 和 r (2，12) 所列的项实际上是 r (2,3) 和 r (2， U ) 的值； 另外的缓冲区不可 
能增加被标记的块区的个数。] 

30. 令 Z =「（s + V^ln d ^^ a - 。于是 

(sd In d )< l + X ) d(l + ald ) sdlnd l(i + a ) 1 = 

之 >1 
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5.5 节 


I + d(l + ald ) sdlnd la(l + a ) 1 < 

l + a _1 exp( (In d)(l + sa — (s + \Tls )ln( 1 + a))) 

而且 （)ln (1 + 0 ：)〉犯 + 1 — a/3 。 因此如果 (log d ) 2 — 00 ， 

^ , 、 e d ^sd In d) ^ \~2 

1 ^ r(d , sd In d) = - ; — < 1 + a/ ^ 

5 In a \ s 



v^^ln d 




\n d + 0{s ~ l {log d) 2 ) 



对这个渐近特性的收敛是稍微慢的（见表 2)。 

31.( 当 Q = 0 时，我们标记头一个块区而后重复地标记下一个这样的块区，在 
由以前已标记的块区开始的组中，这个块区同其中的一个块区共享一个磁盘。例 


如，如果磁盘的访问的编年次序是112020121210122,则标记将是1 12020 12 1 


210 了 2乏。因此，当户― oo 时，在 rz 个时间单位期间，我们平均读 Q ( D ) n 个块 
区，其中 Q 是在等式 1.2.11.3-(2) 中定义的 Ramanujan 函数。与之对照， r (< i ，2) 

= (d + 1)/2 给出一个悲观得多的估计。） 


5. 5节 


1. 在一个给定的状态下判定哪一个排序算法最好是困难的。 ■ 

2. 对于小的 iV ， 表 插入; 对于中等的 N ， 例如， iV = 64, 表 合并； 对于大的 iV ， 基 
数表排序。 

3. ( 由 V . Pratt 给出的解）给定有待合并的两个非减的路段 a ，/?， 以一个直截了 
当的方式确定子路段，使得和/^2正好包含 a 和的键码中具有整 

个文件中值的那些键码。通过逐次的“颠倒”，首先形成 〜 a 2 的4仏心，然后 

qaf 苑0；3馬，然后，我们就能把这个问题归结为合并有 长度12 

的两个子文件和«3^3的问题。 

由 L . Trabb Pardo 提出的 一 ^个相当复杂的算法提供了对于这 一 ^问题最好的渐近 
答案•.仅仅使用 O ( logiV ) 个二进位的辅助存储作为固定数目的下标变量之用，而无需 
以任何方式变换诸记录，我们就能在 O ( iV ) 的时间进行稳定的合并和以 0 (Nlog N ) 
的时间进行稳定的排序 。 [SICOMP 6 (1977)，351〜372)。黄秉超和 M . A . 
Langston , Comp .]. 35 (1992) ， 643 〜 650已经以小得多的常数因子实现相同的时间 
和空间的上限。当 M 比 iV 小得多时， M 个项目和 iV 个项目的稳定合并，也见 A . 

Symvonis , Comp .]. 38 (1995) ,681 〜690。 ] 

4. 仅仅直接插入，表插入，以及表合并。快速排序的变形可以做成吝啬的，但是 
仅仅以内循环的额外工作为代价。（参见习题5.2.2-24。） 

当比较的结果不是100%可靠时，吝啬的方法特别有用，参见 D . E . Knuth , Lec ¬ 
ture Notes in Comp . Sci . 606 (1992) ， 61 〜 67。 
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习题答案 


6. 1节 


1. 7(^-1)/12 0 参见等式 1.2.10-(22)。 

2. S 1\ [初始化]置 P—FIRST 。 

S 2\ [比较]如果 K = KEY(P )， 则算法成功地结束。 

S3' [前进]置 P—LI 皿 (P )。 

S 4' [文件结束？]如果 P 关 A ， 则转回 S 2、 否则这个算法以失败告终 。I 



KEY 

EQU 

3:5 


LINK 

EQU 

1:2 


START 

LDA 

K 

1 


LD1 

FIRST 

1 

2H 

CMPA 

0,1(KEY) 

c 


JE 

SUCCESS 

c 


LD1 

0,1(LINK) 

c-s 


J1NZ 

2B 

c-s 

FAILURE 

EQU 

* 

l-s 



运行时间是 (6 C _3 S + 4) w 。 

4. 是，如果我们有方法置 “ KEY ( A )” 等于 K 的话。[但在程序 CT 中使用的循环重 
复技术，在这种情况下无效。] 

5 . 否； 程序 Q 总是至少做和程序 CT 同样多的操作。 

6 . 以 JE *+ 4;CMPA KEY + N + 2,1;JNE 3B;INC1 1 代替行08;而且把行03 
〜04改变成为 ENT 1 -2-N; 3H INC1 3 0 


7.注意 C N 


2 


Qv - 



1。 


8.欧拉求和公式给岀 


H 


( I ) 


n 



71 


1 ~ x 


(1 — x 

复变理论告诉我们 



2 


n 


X 


B 2 x 

~2 T n 




x 





x 



1) 


3! 


n 


一 2 — 


X 


0 ( 


n 


- 3 - 


x 


以工) 


2 x 7 t x ~ 1 sin 


2 


丌 x 


r(i 


x)^(l - X 


这是当 x <0 时特别有用的一个公式。 


9. ( a ) 是 心二 N - N — 卜 N + l - N — 0 LJ H ) 




1 + 



N 



1 


2 


+ 0 (N 


— d 


o 


( b ) C]v — 



1 + N 



1- 




(n + iv 1 —"r(i — 


沒 ）+ l ) + 
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0( N l ~ 2d ) 0 

( c ) 当 ~<0 时， （11) 不是一个概率 分布； （16) 给岀 C N = - T 4^ r ( i -^) N 1 + ' + 

1 十 

O ( N 1 + 20 ) + 0(1) 的估计以代替 （15)。 

10. 九 《•< 如； （极大值。）= ( N + 1)- (极小值 C N )o [类似地，在不等长情况 
下，极大平均查找时间是 1^(1 +九）+…+ L n (1 + pjv ) 减去极小平均查找时间。] 

11 . ( a ) — •，… ， X { ) Pl 的诸项恰好是可能已在前面的的诸要求序列的 

1 m — \ 

概率，这些要求序列均使尺留在位置 m 中。 （ b ) 第二个恒等式从累计在 x 的不同 
的 m 子集上开头的 ) 种情况得出，注意每个 Pm 出现的次数。第三个恒等式从第 

\ m / 

二个通过反序得来。[或者，可以使用容斥原理。] ( c ) rnP nm = nQ nn - 

Qn(n-l )； 因此 


d { = 1 (N - 1) 


A-S 

J 知 




2 p4i = n _ 

i<J 

等式 （17) 




注意； W . J . HendrickstJ . Applied Probability 9 (1972 )，231 〜 233 ] 发现了 对于记 

录的每一个排列的稳定状态概率的一个简单公式。例如，当 N = 4 时，这个序列将 
是且有极限概率 


_^3_ _ Pi _ Pa P 2 

p2> + P\ + Pa + p 2 P\ + Pa + P2 Pa + Pi Pi 

James Bitner[SJCOMP 8 (1979)，82 〜 85] 证明，如果表原来处于随机次序，则在 z 次 
随机请求之后预期的查找时间超过的数量是九 - pj) 2 (i- pi - p J ) t Kp i 



pj ) 


O 


因此平均说来“次查找加在一起要求少于 〖 C N +- Pj) 2 Kpr 



Pj) 2 <tC N ^ 


2 


N 
[2 


次比较。关于通过生成函数给岀的有启发的证明，请见 P . Fla 


jolet - Gardy 及 L . Thimonier ^Discrete Applied Math . 39 (1992) ， 207 〜229, 



6 


o 


12. C n = 2 


1 - N 



2S 


N-2 


它迅速地收敛到 


/ 


习题 5.2. 4- 


13给岀 〆 的值到40位数字 


0 


13.在计算了相当麻烦的求和 


n 




n { n 



l ){2 n + 1) 


+ k 


6 


(2H 2 


H n )— 


n v n 



l )(10 n - 1) 


36 
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习题答案 


之后，我们得到答案 


C N = JN - j (2 N + l )( H 2n - HJ + - j(N + l)- 1 〜 .409 N 

14 . 我们可以假定则当％ 时，岀现极大值，而 

12 7\ 

当时岀现极小值，这是根据类似于定理 S 中所作的论证得到的。 

1 n 

15. 如同在定理 S 中那样论证，排列是最优的充要条件是 


Pi/Lid - P t ) > - > P N lL N (l - P N ) 


16. 当且仅当 TJ (1 - Pl )« T N l ( l - 如）时预期的时间 T ! + Pl T 2 + 
M 2 T 3 + …+ pip 2 -' pN - iT N 被极小化。 [BIT 3 (1963)，255〜256; James R . Sla - 
gle 得到了一些有趣的推广， /ACM 11 (1964),253 〜264。] 

17. 以递增的截止时间（它们同分别的时间 T z •无关）的顺序做诸工作！[当然， 

实际上某些作业比其它作业更重要，因此我们可能要使极大的加权延缓极小化。或 
者，我们可能希望使和数+ - + T a - D a ，0) 极小化。看来这些问题 

1 i i 

中没有一个是有一个简单的解的。] 


18.设 h =[ s 存在] 


0 


A 




r 




% 


r 


，c 




> r A, D 


>0|;则对于（( ? ，0要排的和^^4 


减去对于 （ 〆 ， 〆 ） 要排的对应的和 


等于 


2 2 - r i)(qj - r J )(d\ t ^j I - d h ^ l+ 2k~i~j) + 

i ^ A , j ^ C 

2 2 ( Qi ~ tj(d h+ 2k — i+j — di-i + j) 

C,j^D 

这是正的，除非 C =0 或 AUD =0。 由于当 m =0， l 时它们左-右双重性，风琴管 
的那些安排法是仅有的、不可能被这个构造改进的排列，由此即得岀所希望的结果。 

[这个结果实质上是 G . H . Hardy , J . E . Littlewood 以及 G . Polya 给岀的 Proc . 
London Math . Soc . (2),25 (1926)265 〜282。他们证明，事实上，在诸 p 和诸 g 所有 

独立的安排，当诸 p 和诸 g 都在一致的风琴管次序下时，达到极小 

值。关于进一步的评述和推广，见他们的专著 Jneguaiides (剑桥大学出版社， 1934) ， 
第10章。] 

19.所有安排都是同样好的。假定 dG ， j )= 0 , 我们有 


'YjPiPjdii ,j) 

參 * 


2 ^jPiPj (d(i ,j) + d(j ,i)) 



c 


[对于； 的特殊情况 fj ) = 1 + (j ) mod iV 是 K • E • Iverson 在 A Program - 
ming Language (New York : Wiley ， 1962)，138 中给出的。 R . L . Baber (/ACM 10 
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6.2.1 小节 


(1963),478 〜486,已经研究了一条磁带可以向前读，重绕或不读而倒退々个块时， 
同磁带的查找有关的某些其它问题。 W . D . Frazer 发现，如果允许我们复制文件中 
的某些信息，则有可能相当大量地减少查找时间；关于一个类似问题的经验解法参 

考 E . B . Eichelberge , W . C . Rodgers 和 E . W . Stacy,/BM J . Research & Development 

12 (1968),130 〜 159。] 

20 . 如同习题 18 中那样，以 m = 0或 m = /7 =1从 （ g ， r ) 进行到（ 〆 ， 〆 ）给岀了 

2 _ r /)(^ _ rj)(d \ t -j | ) - min ( d h + i + 2k - i - j , d l+J - X )) 

C 

的纯变化，除 A 或 C 为 0 外它都是 正的。 由循环对称性得出，仅有的最优安排是风 
琴管配置的循环移位[对于具有相同答案的一类不同的问题，见 T . S . Motzkin 和 E . 
G . Straus , Proc . Amer . Soc . 1 (1956) 1014 〜 1021 ] 0 

21 . 这个问题实际上是由 L . H . Harper 首先解决的 ， SMM 12 (1964),131 〜 
135,关于推广及其它工作的参考文献，见 /.Applied Probability 4 (1967) ，397〜401 。 

22. 大小为1000的一个优先队列（比如说，表示为一个堆，见 5.2.3 小节）。在 
这个队中插人前10⑻个记录，并把具有最大 d ( K 2 ， K ) 的元素放在前端。对于满足 

队的前端， K ) 的每一个后继以亿代替前端元素，并对队进行重 

新调整。 

6.2.1 小节 

1. 归纳地证明，每当我们达到步骤 B 2 时 — i < K < i ^ + 1; 而且每当达到 B 3 
时 ， Z S < w 。 

2. (3，(0否 ； 如果/ = ^/-1和1<：>]^则它循环。 （ b ) 是，它是行的！。但当不存 

在 K 时，将经常有对于 1 = u 和的循环。 

3. 这是对于 N = 3 的算法 6. IT 。 在一次成功的查找中，该算法平均作 （iV + 1)/ 

2次比较；在一次不成功的查找中，它作 N /2 + 1 - l/(iV + 1) 次。 

4. 对于 N = 121 它必然是一次不成功的查找；因此由定理 B ， 答案是 138 w 。 

5. 程序 6.1(^ 有 1.75 N + 8.5- (N mod 2)/4 iV 的平均运行时间；这胜过程序 B 

当且仅当 iV <44。 [仅仅对于 iV < ll 它胜过程序 C 。] 

7. ( a ) 肯定不是。 （ b ) 算法 U 中磁带圆括弧的注释将始终成立，所以它将是有效 
的，但当 ] v 为奇数时仅当 - oo 和 K N+l = + oo 两者都出现时才是如此。 

8. ( a ) iV 。 通过归纳法证明这一点是有趣的，注意，如果我们以 iV + 1 来代替 
N ， 则诸 S 中恰有一个增值。[关于一个推广，见 AMM 77 (1970),884 o ]( b ) 极大值 
= 'Zjdj = N ; 极小值 = 28^ - S jdj = N mod 2。 
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习 题答案 

9 . 当且仅当 N 二 2 k - l 。 

10. 使用“宏扩展”程序，其中包括诸 DELTA; 因此，对于 N -10： 
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6.2.1 小节 


13. 


N = 1 
Cn = 1 




4 5 



6 


7 


2 各 2 3 


6 


7 


8 9 



10 11 
3 3 


12 13 14 15 16 

3 吾 3 吉 3 吾 3 告 4 古 


C ^ = l 1 -f 2 2+2+3 3 3+3斋3吾3吾4 4 4 4 4* 

14. 一个思想是求使得 N + M 有形式心 + 1 -1的最小的 M >0, 然后在步骤 F 1 

中以 i — F k - M 开始，而且在步骤 F 2 的开头处插入“如果 f <0, 则转向 F 4。” 一个更 

好的解决方法是，对于斐波那契的情况采取 Shar 的思 想：如 果最初比较的结果是 K 
> K f ，则置 f — f - M 并转到步骤 F 4( 从这以后正常进行）。这就避免了内循环中 

k 

的额外时间。 

15. 外部节点岀现于级 U /2」 到 A -1 上； 这些级之间的差别大于1，除非当 
0，1，2,3,4时。 

16. 在 2.3. 2节的“自然对应”之下，如果我们撤销线性图表最顶部的节点，则阶 
为々且左右颠倒的斐波那契树，是对应于直 到第々 个月止的线性图表的二叉树。 

17. 设路径长度是々 - AU ); 则当0< 时，八（巧）和 A (巧 + m ) = 

1 + A ( m ) o 

18 . 成功的查找 ： A 々 = 0, = (3 kF k + 1 ^ ( k -4) F k ) l 5( F k + 1 - l ) - l , Cl k = 

Cn (^-1 )/(R + 1 - 1)。 不成功的 查找： A ! = F k lF k + 1 ， C' k = (3 kF k + 1 + U — 4) 

巧 ）/5 巧 + 1 ， C 1> C ! — !巧/ 心 + 1 + P \ — :/^ + 1 。 C 2 = C - C 1o (关于有关的递推式 
的解，参见习题 1.2.8- 12。） 

20. ( a ) b = p - p q - (1 0 ( b ) 至少有两个错误。第一个大错误是该因子不是一线 

性函数，所以它不能简单地“平均之”。实际上剩下/>以个元素的概率为，剩下 qN 
个的概率为所以我们可预期剩下（ 〆 + f )] V 个； 于是，平均的减少因子实际上是 
ll ( p 2 + q 2 )。 现在在々次迭代之后的减少因子是 1/( /> 2 + 但我们不能作岀结 

论说6 = 1/( /> 2 + g 2 )， 因为找岀某些项所需要的迭代次数要比找岀其它的项多得 

多。这是第二个失误。[作岀似是而非的概率论断是非常容易的，但我们必须时刻 
防止这样的圈套！] 

21. 它是不可能的，因为这个方法依赖于键码的值。 

22. FOCS 17(1976),173 〜 177 。也请参见 Y. Perl, A. Itai 和 H. Avni，CACM 
21(1978) ， 550 〜 554; G. H. Gonnet ， L. D. Rogers 和 J. A. George Acta. Informatica 13 
(1980) ， 39 〜 52; G. Louchard ， J^AIRO Inform. Theor 17 (1983 ) ， 365 〜 385;Comput¬ 
ing'46(1991) ， 193 〜 222 。 方差是 0(log log N) 0 G.Marsaglia 和 B.Namsimhan 所 
作的广泛的经验测试 ，Computer and Math. 26,8( 1993) ， 31 〜 42 表明，平均的表访问 
次数非常接近于 lg lg iV ， 如果查找不成功加上大约 0.7 。例如当以 = 2 2() 时，在一个 

随机表格中的一次随机成功查找花费大约 4.29 次访问，而一次随机不成功查找花 
费大约5.05。 

23. 当大于等于时转向右边，当小于时转向 左边； 当达到节点 H 时，由 （1) 得岀 
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习题答案 


K Z < K < K Z + 1 ，所以关于相等性的最后一次测试将区别成功或失误。（键码 K 0 = 
- oo 将总是存在的。） 

算法 C 将被改变成，如果在步骤 C 2 中1<： = 1^，则转到04。在 C 3 中如果 DELTA 

b ] =0, 则置并转到 C 5。 在 C 4 中如果 DELTA [ j ] =0,则直接地转到 C 5。 
增加一个新步骤 C 5:“ 如果 K = K Z ， 则这算法成功地结束，否则它以失败告终。”[除 

非 iV >2 26 , 否则这不会加快程序 C ， 平均成功的查找时间从 （8. 5 \ gN -6) u 变成 

(81 gN + 7) z / 0 ] 

24. 可以把诸键码安排成使得我们首先置 z — 1，然后按 K<K { 或 置 i — 

2 i 或+ 1;当 f > N 时，这个查找是不成功的。例如当 N = 12 时，键码的安排必须 
是 

K 8 < K 4 < K 9 < K 2 < K 10 < K 5 < K n < K, < K l2 < K 6 < K 3 < K 7 

对于在 MIX 上编的程序，这个方法大约将花费 6 IgN 个时间单位，所以它比程序 C 
更快。惟一的缺点是首先建立表格时要有点技巧。 

25. ( a ) 由于 a 0 = l — 6 0 ，^2 1 = 2^2 0 -6 1 ，“2 = 2^2 1 -6 2 ，等等，我们有 A ( 2 ： ) + 

B ( z)^l + 2 zA ( z ) 0 通过考虑 AClhBClhBC + hA / U ) 和矿（1)，从这个关系立 

即得出在 2.3.4. 5节中导出的若干公式。如果我们使用两个变量来区别一条通路的 
向左走和向右走，则我们得到更一般的结果 A(x,y) + B(x,y) = l + (x + y)A(x, 
: V )，这是在，叉树中成立的一个公式的特殊情况[参见 R . M . Karp，JRE Transac¬ 
tions , IT - 7(1961) ，27 〜 38] 0 

( b ) var ( g) — ((N + 1 )/ N ) var ( h) - ((N + 1)1 N 2 ) mean (/i ) 2 + 2。 

26. 如果我们适当地排列左边和右边，则具有一个完全的 A 级分布的三条带多 
阶段合并的合并树就是 A + 1阶的斐波那契树。（重画 5.4.4 节图76的多阶段树的 
图形，并颠倒 A 和 C 的左和右子树，即得图8。） 

27. 2 k 个结果中至多有 A + 1 个会出现，因为我们可以把下标排序，使得民< 

1 

K t 。 于是这个查找可以通过一株在每个节点处至多有 U + 1) 路分支的 

2 k 

树来描述。在第 m 步中可以找到的项目数至多是 AU + ir — 1 ; 因此平均比较次数 
至少是 N — 1 乘以多重集合 u*l + 1)^2, k{k + 1) 2 *3,…丨的最小的 N 个元素之 

和。当 N>(k + l) n -l 时，平均比较次数 >(U + l ) n - l ) _1 S ^ = 1 ^(^ + 

> 72 — l /々 o 

28. [Skrifter udgivne af Videnskabs - Selskabet i Christiania , Mathematisk - 
Naturviden - skabelig Klasse ( 1910), No . 8; 再版于 Thue 的 Selected Mathematical Pa¬ 
pers ( Oslo : Universitetsforlaget ，1977) ， 273 〜310。 ] ( a ) 有 F „ + 1 + F n -i — F 2n lF n 

个叶(这是所谓的 Lucas 数 Q ( b ) 这个公理说 T 0 ( T 2 ( x )) = T l (x) 
且当 m = l 或 72 = 1 时，我们显然有 T W ( T „ U )) = + :(：0。通过对 72 用归纳 

法，当 m =0 时这个结果 成立； 例如， T 0 ( T 3 ( x )) = T 0 ( T 2 ( x ) ^ ( x ))= 
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ToCT ^^ Cx )) ^ T 0 ( T 2 ( x ))) = : To (了 2( 了 2 U ))) = T 2 U )。 最后，我们可以使用 
对 w 的归纳法。 

29•假定 K 0 = - oo 和 K V41 = K v + 2 = 00 。首先对于 K 2 < K 4 < …进行一次二 

叉 查找； 这至多花费 Llg iV 」 次比较。如果不成功，它确定满足 K ^_ 2 < K < K 2 j 的一 

个区间。如果 2 ; = N + 2 则 K 不存在。否则，对于的一个二叉查找将确定使 

得的/。于是，或者 K = K 2 , q 或者 K 不存在[参见 Tiieor . 
Comp . Sci . 58 ( 1988),67]。 

30.设" = LN /4」。 由 K 1〈 K 2 < …< K n 开始，通过把…， — 1和 
尺 2 „ + 1 ，尺 2 „ + 3 ，"、尺 4 „_ 1 的一个排列进行交换，我们可以把 K 卜 K 3 ，…， Kh-JAA 
任何想要的次序。这个安排满足前面习题的条件。现在我们设< K 3 < …< 
K 2 …_ 3 表示所有可能的〖个二进位的数之间的边界，而且按照^，: r 2 , …，的值 
我们把，…， K 2 〃、 2 w _ 3 插入到这些“围栅位置”之间。例如，如果 
m — A ^ t = 3, jt } = ( 001 ) 2 ， X2 — ( 111 ) 2 以及 x x ( 100 ) 2 ，则所求次序是 

K { < K [5 < K3 < K5 < K7 < K 19 < K 2{ < K 9 < K n < K 13 < K 17 

(我们也可以令 K 21 在 K 19 之前。）在子数组& < K 3 < …< 中对于 

K /' u 的一次二叉查找现在将从左到右地找七的二进位。[参见 Fiat ， Munro , 
Naor , Schaffer , Schmidt R Siegel , J . Comp . Syst . Sci 43 (1991)，406 〜424。 : 

6.2.2 小节 

1 . 使用一个表头节点，并设 R 00 T = RLINK ( HEAD ); 以 P — HEAD 在步骤 T 4 处开始 

这个算法。步骤 T 5 就如同当 K > KEY ( HEAD ) 时那样执行。[于是改变程序 T 的行 
04和05为 “ ENT 1 ROOT ; CMPA K ” ] 。 

2. 在步骤 T 5 中，置 RTAG ( Q ) — 1。还有，当插入左边时，置 RLINK ( Q )— P ; 当插入 
右边时，置 RLINK ( Q )— RLINK ( P ) 及 RTAG ( P )— 0。在步骤 T 4 中，把测试 “ RLINK ( P ) 尹 
八”改变成为 “ RTAG ( P ) 关0”。[如果诸节点被成功地插入到递增的诸位置 Q ， 而且如 
果所有的删去都是后进先出，则可删去 RTAG 字段，因为当且仅当 RLINK ( P )< P 时， 
RTAG ( P ) 为1。类似的注释对于同时的左和右穿线亦可应用。] 

3 .我们可以以一个正确的地址代替 A ，并在这个算法的开始处置 KEY ( A ) — K ; 
然后可从内循环撤销对于 LLINK 或 RLINK = A 的判断。然而为了进行一个正确的插 
入，我们需要引进跟随 P 的另一个指针 变量； 这可以在不失去所述速度的优点之下 
进行，并通过如程序 6.2.1 F 中那样重复代码的方法来完成。于是 MIX 的时间将被 
减少成大约 5.5 C 单位。 

4.对于 N >2 n - 1， Cn — I + (0*1 + 1.2 + …+ ( 7 ? — l )2 n 1 + — 1 + …+ 

C n ^/ N =(1 + 1/ N ) C n - lo 对于 N >2^ 1 - 1，这些方程的解是 C N =2( H N + l - 
H 2 ") + n ，它节省了 2 H r - n - 2义 "（In 4 - 1) 次比较。对于77 = 1，2，3，4，实际的改 
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题答案 


进分别是0 ,于是对于小的固定的^获利是相当小的。[关于和一 

个等价的排序问题的更详细的推导，见 Frazer 和 McKellar , JACM 17 (1970),502。] 

5. (a) 第一个元素必须是 CAPRICORN; 然后我们把产生左子树的方式数乘以产 

生右子树的方式数再乘以即为把这两个序列搅混到一起的方式数。于是答案 
成为 

⑺ ( x )“_ 

[一般地说，这个答案是对于所有节点的乘积，其中 Z 和 r 代表这个节点的左 

和右子树的大小。 这等于 N \ 除以子树大小的乘积。它和习题 5. 14-20 中的公式 
一样； 其实，如果我们以 A 代替查找树 中的％ (用习题6的记号），则在产生一株具体 

的查找树的诸排列和在该习题中统计的诸“拓扑”排列之间，有明显的——对应。] 
( b ) 2^ = 1024;在除开最后一步之外的每一个步骤中，插入最小的或最大的剩余 
键码。 

6 . ( a ) 对于其费用是々的个排列 q … - x a n 中的每一个，按照 a ] ，< m 或~ 
构造72 + 1 个排列 a / 广 • a / n — ' ma ，其中 a ;或 + 1 。 [参见 1 . 2 . 5节， 

方法2。]如果 m = ~或+ 1，则这个排列费用为々+ 1，否则它的费用是 A 。（ b ) 

G n ( z ) = (2 z + n —2)(22：+ n —3) … （ 2 之）。因此 

_ 

71 

Pnk = 

m 

实质上，这个生成函数是由 W . C . Lynch 得到的 [ Comp . J . ( 1965 ) ，299〜302 ] 。 （ c ) 
诸概率的生成函数是^(幻= G n ( z ) ln \。 这是诸简单概率生成函数的一个乘积， 
所以 CTfiW 方差是 

varUJ = S var (^ r ^) = § [iti - = 2H - - 4H - 2) + 2 

[由习题 6.2.1-25( b )， 我们可以利用 q ； 的均值和方差计算 C „ 的方差，它是 （2 + 10/ 
72)氏 -4 (l + l /")( i ^ 2 ) + H 2 JrO +4; 这个公式由 G . D.Knott 给出。] 

7. 将进行同第 A 个最大元素的比较当且仅当该元素岀现在第 m 个元素之前和 

介于第 A 个和第 m 个之间的所有元素 之前； 这以 1/(1 +1) 的概率出现。对々 

求和给岀答案 + h — m _ l 。[CACM 12 (1969),77 〜80;也见 L . Cuibas , Acta . 

Informatica 4 (1975) ， 293 〜298。 _ 

8 . (Si)g n (z) = Z n ~ l 12k = lgk-l( Z )gn- k(^)l ^ ,go(z) = lo 

( b ) 7 tz 2 - 4 U + l ) 2 Hi 2 ) -2 (n + l ) H n + 13 n 0 [ P . F . Windley ， Comp . J . 3 

(1960) ，86,给岀了一些递推关系，由这些递推关系，可以从数值上计算这个方差，但 
他未得到这个解。注意这个结果同习题6的答案中所述的 C „ 的方差没有简单的关 
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联 。] 

10.例如，键码的每个字： c 都可为 ax mod m 所代替，其中 m 是计算机字的大 
小而 a 是同 m 互素的一个随机乘数。可建议釆用接近于的一个值见 (6. 4 
节）。树方法的灵活存储分配，使它较之其它散列代码方案更有吸引力。 

ll . iV -2; 但是这仅仅是在删去① iV ( iV -1) …2时，以 1/( MV !) 的概率岀现。 

12. 定理 H 的证明中 + (n +1)( n +2) 个删去属于情况1，所以答案是 （iV + 1)/ 

2N 。 

13. 是。事实上定理 H 的证明表明，如果我们对于任何固定的々，删去第々个插 
入的元素，则结果是随机的。 （ G . D . Knott [斯坦福大学博士论文， 1975] 已经证明， 
对于任何固定的序列心，…， t ， 在任意的随机插入序列之后紧接着逐次删去已插 

入的第（心，…，匕)个元素，则结果是随机的。 

14. 命 NODE ( T ) 在级々上，且设 LLINK ( T ) = A , RLINK ( T ) ^ R ^ LLINKCRi ) = R 2 , …， 
LLINK ( R ^) = A ，其中且 d > l a 设对于 ， N 0 DE ( R z ) 在它的右子树中有 

个节点。通过步骤 D 1 +，内部路径长度减少々+ d +〜+…+ 如果没有这 

个步骤，则它减少々+ ^+ 

15.11,13,25,ll,12o [如果 七是 的（最小的，中间的，最大的），则 
在删去之后得到树'\ (4,2,3) x 4 次。] 


16 .是; 甚至像在定理 H 的证明中所定义的那样，对于排列的删去操作也是可 
交换的（如果我们忽略重新编号这一点）。如果在 X 和 Y 之间有一个元素，则删去 
显然是可交换的，因为这个操作仅受 X 和 Y 的相对位置，及它们的后继者位置的影 
B 向； 而且在 X 的删去和 Y 的删去之间没有交互作用。另一方面，如果 Y 是 X 的后 
继，而且 Y 是最大的元素，则删去的两种次序都有简单地撤销 X 和 Y 的作用。如 
果 Y 是 X 的后继者以及 Z 是 Y 的后继者，则两种删去的次序都有以 Z 代替 X， Y 
或 Z 的第一次岀现的作用，而且删去这些元素在这个排列内的第二次和第三次出 
现。 

18.使用习题1.2.7-14。 

19 . 2 Hn — 1 — 2 1 (k — l ) 6 1 kN 6 — 2 Hn - 1 - 2 l d + O ( N - 0 ) 。 [ Pareto 分布 

6.1-(13) 也给出相同的渐近结果，直到 OU^log n ) 的范围内。] 

20.确实是。假定 K〆 … < K N ，使得由算法 T 构造的树是退 化的； 如果比如说 

九二 （1+ ((iV + l )/2 -々 h )/ iV ， 则平均的比较次数是 （iV + l )/2 - (] V 2 -1 W12 , 而 

最优树只需少于 rig iVl 次比较。 

(大部分角是30°，60°或90°。) 



22.当 d 二2时这是显然的，而对 d >2 我们有 r [ z ,; - l ]< r[z + l ， i - l ]< 

t l ， j]o 


r 
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习题答案 


23. 



[增加第一个节点的权将使它最终移到根的 位置； 这提示，动态地维持一株完全最优 
的树是困难的。] 

24.设 c 是通过删去一株最优树的第 n 个节点得到的一株树的费用，则 c (0, 
n - l )< c < c (0，〃）- ，这是因为删去操作总是把 n - l | 上移一级。还有 c (0, 
72)< c (0， n -1) + 因为所述的替代产生最后一个费用的一株树。由此得出 


c(0 ， w- 1 。 

25 . (a) 假设 且 aGA ， 6GB ， cGC ， c<a 。 如果 则 cG 
因此 c G A 和 aGB ; 因此 a € C 0 如果(:>6,则 aGB ; 因此 a G C 和 cGB ; 因此 

（ b ) 不难证明。 

26 . 对于某个实数 y^O 和整数 Z >0, 每株树的费用有 y + lx 的形式。有限个 
这样的函数的（对于所有树来取)极小值总有所述的形式。 

27. (a) 习题 24 的答案（特别是 c = c(0,n- 1) 的事实）意味着 R(0,n~l) = 

R(0,n)\ Ulo ( b ) 如果 Z = 广 ，则提示中的结果是显然的，否则设对于0的各通路 

m. 


Q )， ❹，…， | 厂， 和 ㊇ ， ㊆ ，…， 卜， 

由于厂 = ?"0>50 ::= 5和0 / 〈5/ / = ?2，我们可以求出一^个级 k ^0使得 r ^ 和 

4 +1。由归纳法我们有 i ， n ) ，& + ；[ € 只 （ &， n ) ，以及 R ( s k ， nXR ( r k ， 

n)， 因此 r k + i ^ R ( s k , n )^ & +! G ， n ); 便得到提示中的结果。 

现在证明 <<凡，设而且考虑当 x = x h 时出现的诸最 
优树； 我们必须有 l > l h 且可以假定//二/,。为了证明 + 1 ，设 r ^ R h , s ^ 
in + 1 M<r， 而且考虑当：^ = & + 1 时出现的最 优树； 我们必然有 l '< l h 因而可以假 
定 z = 4。 


29. 它是一株 YOU 在顶上， THE 在底下的退化树，平均需要 19.158 次比较。 
Douglas A . Hamilton 已经证明，总有一株退化树是最坏的，因此存在求悲观的二 

分查找树的一个 0( rz 2 ) 算法。 

30 . 参见 R. L . Wessner , Information Processing Letters 4 (1976) ， 90 〜 94; 姚期 
智 , SIAM J . Algebraic and Discrete Methads 3 (1982) ， 532 〜 540 。 

31 . 参见 Acta Informatica 1( 1972) ， 307 〜 310。 
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32. 当 M 足够大时，最优树必有所述形式且极小费用必是 M 乘以极小外部通 
路长度加上对于所述问题的解。 

注： 在答案30中所引用的 Wessner 的论文说明如何来求高度< L 的最优二分 
查找树。在 二…二 p n = Q 的特殊情况下，所述的结果是由胡德强和陈国财给出 

的， MRC 报告 1111( 威斯康辛大学，1970)。 A . M . Garsia 和 M . L . Wachs 证明，在这 
种情况下，如果+ %)> maxr =Q %， 则所有外节点都将出现在至多两 

级，而且他们给出了一个算法，该算法只需 OU ) 步即可求出一棵最优的二级树。 

33. 对于所述的问题，请见 A . Itai ， SK：OMP 5 (1976),9 〜18。关于其它可能性， 

参见 D . Spuler , Acta Informatica 31 (1994) ,729〜740。 

34. 由 Stivling 的近似公式，如果〜…九#0,它等于 2 H ( V … 

— 1/2 (1+ 0(1/ N ))。 

?>5.当 2 x =( l _ p ) Ip 时右边的极小值出现，而且它等于 l-p + H ( p ， l _ p )。 
但对于 々=2 j (20)， H (/?，(7， r)d — /? + H (/?， l -/ O 。 

36. 首先我们证明提示，这个提示是由 Jensen 给出的 [Acta Math . 30(1906), 

175 〜 193]。如果/是凹的，则函数 

/ b ) 是凹的并满足 g (0) = g ( i ) = 0 o 如果 g ( p)<o n 0 <f <1，则由中值定理必 
有一个值 p 0 < p 且 〆 （如）<0和一个值 Pi > P 且 〆 （/^)>0;但这和凹性相矛盾。 
因此对于 ，/ (px + (I ~ p ) y )^ pf { x ) + (1-/?)/(： v )。 这是在几何上显然 
的一个事实。现在我们通过归纳法证明/(川勾+…+ + …+ 

，因为若 7? >2 则 /( W …+ /^„)> 夕 1 /( 工 1 ) + 〜+ Pn-lf^n-l) + 

(pn~\ + Pn)f((pn-l^n~l + Pn^n)Kpn~l + Pn)) o 

由引理 E ， 我们有 

m 

H ( XY ) = H ( X ) + 2 

/ - 1 

而后一个和是 = H (30, 其中 fU ) 二 

X lg ( l/:c ) 是凹的。 

37. 由习题 3. 3.2 - 26的部分 （ a )， 我们有 Pr ( P { > s ) = (1 - 因此 

EH ( P !，--- ,PJ = TiEPjlgd / Pi ) = n [ (1 - s ) n ~ l d ( s \ g ( lls ) ) - - (A + B)/\n 2, 

J 0 

其中 A 二 72 p (1 - = 1 而且由习题 1.2.7-13， 

Jo 

rl 71 _ 

B = n (1 - 5 ) ?7 ~ 1 ln 5 ds 二 X ] 

Jo k = 1 

因此答案是 - l)/ln 2。（这是 lg ” + (7- l )/ ln 2 + O U — 1 ) ，非常接近于极大的 
熵 H (—— ) = lg n o 因此 H(pi ，…， p n ) 以很高的概率是 Cl ( logn ) 0 ) 

n n 
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38. 如果〜-1 = 4,我们有 ( ik -\ = Pk 二 qk = 0' 见(26)。构造对于1个概率 
(夕 1，…，九 - 1，九+ 1，…，九； go , …，％-1，％ + 1，…，〜）的一株树，并以一个2叶子树 


代替叶 |々 - 1| 。 

39.我们可以像在定理 M 中那样论证，如果0< w 1 < w 2 < …而且 


Sk 


+…+叫，因为叫>2 — z 意味着当诸权是有序的时，以―！ + 2 — + 1 - 2 - 1 、 
因此我们有 I A \<l + lg ( llzv k )o [这个结果，连同匹配的下限 H ( Wl ，…，叫]一起， 
是1948年 Shannon 的开创性论文的定理9。] 

40.如果々= 5 + 3,则所述的重新安排把费用由 q k -il + q k l + % -24-2 改变成为 

Qk - 2 ^ + Qk - i ^ + - 2 ，所以纯变化是 ( qk-2 ~ qk、 、I - 4 - 2 ) ;如果 Z < 4 - 2 ，则这为 

负，因为 

类似地，如果々>5+ 4,则这重新安排使费用改变 

各 — 1 + 1 (/ — 久 + 1 ) + Qs + 2 ( ^ — 久 + 2 ) + ^5 + 3 ( ^5 + 1 — 久 + 3 ) + …+ Qk-2 ( ^-4 — 2 ) + 


<^-1(4-3 - Z ) + qk ( h -2 ~ 0 

我们有 q s + i > q s + 3， q s + 2> q s + 4, …， q k -2> qk 。 因此我们求得 


^ ^ (Qk-i - %)(/ - 4— 2 ) + (qk-3 - q k —0(l- 4-3) ^ 0 ； 

例如，当 々-5 为偶数时，我们有 

^ ^ qk—?XL- l s + l) + %-2(Z — 4 + 2) + 3(4+1 — 4 + 3) + … + 

%— 2(4-4 - 4—2) + <?々 — 1(4— 3 - Z) + qk(h-2 - O 
而且当々 -3 为奇数时，类似的推导也有效。由此得出，除非 4- 2 = Z ，否则 S 为负。 

41.EFGHTUXYZVWBCDAPQRJKLMIN0Su O 


42.设 ％= WT ( P ; )。 关键之点在于步骤 C 2 〜 C 6 的动作使得所有 g 大于或等于 
Qk-i + Qk 的初始值。 


43. 调用递归过程 mark ( P ! ,0) ，其中 mark ( P , Z ) 意味着下列操作: 


LEVEL(P) <- I ； 

如果 LLINK(P) # A , 则 mark(LLINK(P),Z + 1) ； 

如果 RLINK(P) # A , 则 mark(RLINK(P)，Z + 1)。 

44.置全局变量 0， m — 2/2,并且调用递归子程序 build ( l )， 其中 build ( l ) 指 
的是 下列： 


直 J — 771 ; 

如果 LEVEL ( X ,) = Z 则置 LLINK ( X ; ) 一 Z 和 … f + 1， 

否则置 m — m - 1, LLINK ( X ; ) — 和 build(Z + 1)； 

如果 LEVEL ( X ,) = Z , 则置 RLINK ( X ; )— ，和， — ， + 1， 

否则置 m — m — 1, RLINK ( X ; ) — ，和 build(Z + 1)。 

变量 j 是局部于 build 子程序的。[这漂觉的解是由 R . E . Tarjan 给出的， 
SICOMP 6 (1997),639。] 告诫: 如果数 l Q ，…， l n 不对应于任何二叉树，则这个算法 
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将永远循环。 

45. 把工作数组 P Q ， …， P , 作为一个双重链接表，这个双重链表也有一个平衡树 
的链接（参见 6.2.3 节）。如果2递降的权是 qf ， q t 且％是树的根，贝! J 基于％和 
m 的值，我们可以判定在这个树中是向左进行还是向右 进行； 双重链接提供了对于 
m 的即时访问。（不需要 RAND 字段； 转动保持对称次序，因此它不要求对双重链 
接的任何改动。） 

胡德强和 Morgenthaler 已经给出了可以在 O U ) 的时间内解决问题的若干权 
的类 。 Lecture Notes in Comp . Sci . 1120 (1996) ,234~243; —^般地说还不知道 O ( rz ) 

步是否充分。 

46. 参见/£££： Trans . 023 (1974) ，268〜271;也可参见习题6 • 2 .3-21 。 

47 .参见 Altenkamp 和 Mehlhorn , JACM 27 (1980) ，412〜427。 

48. 不要让对 于 N = 3 的情况 [Jonassen 和 Knuth , J . Comp . Syst . Sci . 16 (1978) ， 
301 〜 322 ] 或 N = 4 [ Baeza-Yates , B/T 29 (1989) ， 378 〜 390 ] 的复杂分析使你恐惧，想 

开些！ Louchard ， Randrianarimanana 和 Schott , Theor . Comp . Sci . 93 (1992 ),201 〜 

225 已经报告了某些进展。 

49 . 这个问题首先是由 J . M . Robson [Australian Comp . J . 11 (1979)，151 〜 
153], B . Pittel [ J . Math . Anal . Applic 103 (1984) ， 461 〜 480 ] 以及 Luc Devroye 
[JACM 33 (1986),489 - 498 ； Acta . Inf . 24 (1987) ,277 〜 298] 考查的。他们得到了 
极限公式，当 — 00 时这些公式以 — 1的概率成立。参见由 H . M . Mahmoud ^ volu ¬ 
tion of Random Search Trees ( Wiley , 1992)， 第 2 章 。 Bruce Reedm [STOC 32 

(2000)，479 〜 483] 证明 了平均高度是 a Inn — (3 a In In n ) I (2 a - 2) + 0(1)， 而方差 

是 O (1) ，其中 

a = l / T ( l /2 e ) ^ 4.3110704070010050350470760964468902783916 - 
而 — 是树函数。 


6.2.3 小节 


1 . 节点的对称次序必须通过变换加以保持，否则我们将失去一株二分查找树。 

2. B ( S ) =0仅当 S 指向树根时才能发生（在步骤 A 3 或 A 4 中它决不曾被改变）， 
而且从 S 到插人点的所有节点是平衡的。 

3. 设&是在高度为 / i 的平衡树中不平衡节点的最大可能比率。于是=0, 



|°2 ~ y ，|°3 


a 我们将证明外 =( 心 + 1 - 1)/(巧 +2 - 1)。设7；是使外极大化的 


一 株树； 则可以假设它的左子树有高度 /i -1 且它的右子树有高度 /i -2,因为如果 
两个子树的高度都是 / i - l ， 则比率将 小于作于是乃 的比率至多是 （作 ^以十 

外 — 2 队+ 1)/(以+队+ 1)，其中在（左，右）子树中有（]^，乂）个节点，当（以，队) 
取它们的极小值时，这个公式取它的极 大值； 因此我们可以假定是一株斐波 
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习题答案 


那契树。而且由习题 1.2. 8-28,&<《-1。 



4.当 n — 1 时有更大的路径长度。[注： C . C . Foster , Proc . ACM Nat . Coni . 20 

(1965)，197 〜198,给出了构造具有极大路径长度的 N 节点平衡树的一个不正确的 

过程 ; Edward Logg 已经发现， Foster 的图3在24个步骤之后给出了一个非最优的 

结果（编号为22的点可被撤销以留下编号为25的节点。） ] 

然而当 a 是任何非负常数时，阶为 A 的斐波那契数确实在所有高度为 A -1 的 
平衡树： T 中极小化 U + a ) iV -( 外部路径长度（: T )) 的值； 通过对&的归纳法这可 

容易地证明。它的外部路径长度是吾 /ih - i + y (/ i ~ l ) F A = ( ) hF h + ! + 

0( F h + 1 ) = &(h 妒）。 因此任何 JV 个节点平衡树的路径长度至多是 

minUiV - + O ( N )) < Nlog 令 N - Nlog 令 log ^ N + O ( N ) 

而且如果 iV 很大而且々 =rig N ~ l，k = Lkllg 令- log /」= log^N - log ^ log 伞 N + 0(1) ， 

我们可以构造路径长度为 / iiV + O ( iV ) 的一个平衡树如 下：写 N + 1 = F , + F ,_ 1 + 

…十巧^ +以/二巧^-巧^ +以^并且构造在 iy /个 节点上的一个完全二 叉树； 然 
后逐次地把它同阶为々，々+ 1 ，…， A -1 的斐波那契数合并[参见 R . Klein 和 D . 

Wood,Theoretical Comp . Sci . 72 (1990) ， 251 〜 264] 。 

5 •这可以通过归纳法来 证明； 如果 T n 表示被构造的树，则我们有 


t n 



，如果 2 〃 < N <2 n +2 〃 — 、 

如果 2 〃 + 2 77-1 < N < 2 n+l 


的系数是 n 个节点的二叉树的个数，这株树的左子树是 
高度为 ） 的一株平衡二叉树，而其右子树是高度为6的一株平衡二叉树。 

7. C „ + 1 = C 2 „ + 2凡 - dry 因此如果我们设 w = In 2, q = 0,以及 a n + 2 = 
lh(l + 2 B „ + 1 B „/ C 2 „ + 2 ) = 0( l / B „ C „ + 2 ) 和 6 = exp ( a 0 /2 + aj 4 + a 2 IS + …），则我们 

求得 0 <沪 — C „ = C „( expO „/2 + % + 1 /4 + … ）—1) < 1;于是 C „ = L〆 」。 关于双 

重指数序列的一般结果，见 Fibonacci Quarterly 11 (1973) ，429 〜 437。0的表达式迅 
速地收敛到下列值 

0 = 1.43687 28483 94461 87580 04279 84335 54862 92481 + 


698 



8 .设 bh — ( 1 )1 B h (1) + 1，且设 ％ = 2B ^ B ^ — i ( 心 - 〜 - i )/凡 +1 。贝 ll b { — 2 , 

心 +1 = 2 心 _ %和％ = O ( 心 / B/j — 【 ）； 因此心 = 2$ + ，其中 

卜 1 _ - 如 2 -… = 


0.70117 98151 02026 33972 44868 92779 46053 74616 + 

而且对于很大的 /i 说来 q = %/2 + ^ + 1 /4 +…极其小 [Zhurnai Vychisl Matem . i 

Matem . Fiziki 6,2 (1966) ， 389 〜394。 E. M. Reingold,Fib. Quart 17 (1979)，151 〜 

157 得到了对于 2-3 树的类似结果。] 

9. Andrew Odlyzko 已经证明，平衡树的数目渐近地是 


C n /(log(/T0+2)/3^)/^ 


其中 c 〜1.916067 和 /( z ) =/(_x + 1)。他的技术也将产生平均髙度。[参见 Con - 

gressus Numerantium 42 (1984) ，27〜52,在这篇论文中他也讨论2 - 3树的枚举。] 

10. [ Inf . Proc . Letters 17 (1983) ， 17 〜 20] 设 Xi ，…， X N 是 —- 些节点，并给定它们 

的平衡因子 B ( X ^) 0 为构造这树，置0并计算 TREE ( oo )， 其中 TREE ( Zimax ) 是带 
有局部变量/1，/^和 Q 的下列递归过 程：置 / i —0， Q — A ; 然后当 / i </ nnax 和 k<N 

时置 々— 6 + l ，/ z / —/i + B ( X 々）， LEFT ( Xj — Q ， RIGHT ( X 々）— TREE (/ 2 /)，/ i — maxU ，/ z /) 

+ 1， Q — 返回 Q 。 （树 Q 有高度 A 且对应于自进入此过程以来已经读入的平衡因 

子。）即使当 | B(XJ | >1时此算法仍有效。 

11. 当时显然有和- - B 和+ - B 同样多的 + A ， 而且在+和-之间有对称 
性。如果有 M 个 + A 和 - A 类型的节点，当 n > l 时所有可能情况的考虑表明，下一 
个随机插入得到 M - 1个这样节点的概率为 3 Ml(n + 1) ， 否则它得到 M + 1个这 
样的节点。由此得出结果 。 [SJCOMP 8 (1979) ，33 〜 41;在 SJCOMP 11 (1982),748 
〜780中 Kurt Mchlhorn 推广了对于删除的分析。有关在这样的“次要分析”中最新 

发展的综述，参见 R . A . Baeza _ Yates，Computing Surreys 27 ( 1995 )，109〜119，这种 

分析典型地使用在习题 6.2.4-8 中说明的方法。] 

12. 当插入（12)的第二个外部节点时岀现极大值；0 = 4,01 = 3，！）= 3，义= 02 
- F = G 1 = H 1= VI 二 1，总计用 132 m 的时间。当插入 （13) 的倒数第三个外节点时 
岀现极小值；0 = 2 ,01=02 = 1 ，1) = 2，总计用61“的时间。[程序 6.2.2 T 相应的 
数字是 74 m 和 26 m 。] 

13. 当树改变时，仅仅需要更新 0 (log N ) 个 RANK 值; “简单的”系统可能需要非 
常广泛的改动。 

14. 是。（但是在表上的典型的操作是充分地非随机的，以致大概将出现退化 

树。） 

15. 使用算法 6.2.2 T ， 且在步骤 T 1 中置 m 为0,而且每当在步骤 T 2 中 K > 
KEY ( P ) 时 ， m — m + RANK ( P) 0 

16 . 删去 E ; 执行情况 3 在 D 处重新平衡。删去 G ; 以 G 代 F ; 执行情况2在 H 处 
重新 平衡； 在 K 处调整平衡因子。 
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题答案 




































6.2.3 小节 


而后通过应用在 C 处的单转动或双转动重新解决不平衡性。 

20 . 



也许最困难的是在这株的树的最左边插入一个新节点。但 K . J . RdhS 和 S . H . 
Zweben 已经设计了一个一般的算法，它花费 0( log N ) 步 。 [CACM 22 (1979),508 
〜512。] 

21. 算法 A 在阶为 NlogN 的步骤中作此工作（见习题 5) ;下列算法使用一个递 
归方法的有趣的迭代表达方案，在 O ( iV ) 步内建立同一些树。我们使用三个辅助 
表： 

, D Z (实际上控制递归的一个二进计数器） 

, J Z (指向交接点的指针表） 

T 1? . . . , T Z (指向树的一个指针表） 

这里 / = rig(N + l)lo 为了方便起见，这个算法也置 D Q — 1 ， J Q —J z + 1 — 八。 

G 1 •[初始化]置 Z —0， J G — A — A ， D G — 1。 

G 2 .[得到下一项目]设 P 指向下一个输入节点。（我们可以调用另一个共行 

子程序以便得到 P 。） 如果已无输入，则转到 G 5。 否则，置 A —1， Q — A ， 而且 
交换 P —— A 。 

G 3 •[进位]如果々>/(或者，等价地，如果 P = A )， 则置 / — / + 1, D , —1, T ,— 

Q ， J & + 1 — A ， 并返回 G 2。 否则置 D &— 1 - D & ，交换 ， P ^--^ J ^ + 1 ，而且 

々增加1。如果现在 1)^ = 0, 则重复这一步骤。 

G 4 •[连接]置 LLINK ( P )— T 々， RLINK ( P )— Q ， B ( P )—0， T 々— P ， 并且返回 G 2。 

G 5 •[完成]对于 1<々< Z ， 置 LLINK ( J 々）— T 々， RLINK ( J 々 ）—h — — 1 — 

，然后结束这个算法 ; J Z 指向所求树的根。 ■ 

步骤 G 3 被执行 2 iV _ v ( iV ) 次，其中 v ( N ) 是 N 的二进表示中1的个数。 

22. 具有 N 个内节点的一株加权平衡树的高度，总处于 lg(N + 1) 和 21 g(N + l ) 

之间。为了达到这个上限，注意这个根的较大的子树至多有 （iV + 1)/ 々个外节点。 

23. ( a ) 构造一株树，其右子树是具有 2" - 1个节点的完备的二叉树，其左子树 
是具有 F „ + 1 - 1个节点的一株斐波那契树。 （ b ) 构造一株加权平衡树其右子树大约 

是 21 g N 级高 ，其左子树大约是 lg iV 级局，（参见习题22)。 

24. 考虑满足这个条件但不是完全平衡的最小树。则它的左和右子树是完全平 
衡的，所以它们分别有 2 Z 和2〃 个外节点，其中/关 r 。 但这同所述条件矛盾。 
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25 .在树的底部插入一个节点之后，我们从底往上地校验在查找通路上每个节 
点处权的平衡。假设在已经于右子树中插入一个新节点之后，在 （1) 中节点 A 处出 
现不平衡性，而 B 和它的子树是加权平衡的。则一次单转动将恢复平衡，除非 （M 

+ |川）/|7|>乃+ 1，其中|^|表示在一个树1中的外节点数。但在这种情况下，可 
以证明一个双转动已足够[见 SJCOMP 2 (1973),33 〜34]。 

27.有时需要在包含两个键码的节点中作两次比较。在类似于下边那样的一株 
树中，出现最坏的情况，它有时需要进行2 lg(N + 2)-2 次比较。 



29. 姚期智给出的部分解 ：对于 N >6 个键码，最低级将平均包含 |(iV + 1) 个 

单键码节点和 j(iV + l ) 个双键码节点。对于很大的 iV 平均的总节点数在 0.70 N 

和 0 . 79 N 之间 [Acta Informatica 9 (1978) ，159〜 170] 。 

30. 对于最好适合，按大小次序排列诸记录，且以一个任意的规则来打破相等情 
况(参见习题 2. 5-9)。对于第一个适合，按位置次序安排诸记录，而且在每个节点中 
以一个额外的字段指出在以该节点为根的子树中最大区域的大小。这个额外的字 
段在插入和删去之下仍可保持。（尽管运行时间是 0 (log n )， 但实际上大概它仍然 
不能胜过习题 2.5-6 中的 “ ROVER ” 方法； 但没有 ROVER 时存储分配可能更好些，因为 
在这种情况下通常遇紧急情况时可有一很大的空区域供使用。） 

R. P. Brent，ACM Trans. Prog. Languages and Systems 11 (1989) ， 388 〜 403 提出 

了一个改进方法。 

31. 使用一个接近于平衡的树，并对于最左部分附加向上的链接，另有一个栈， 
栈中内容用于沿着这条通路作推迟的平衡因子校准。（每个插入作有限次这样一些 
校准。） 

这个问题可加以推广，以要求 0 (log m ) 步来寻找，插入和/或删除在任何给定 
的“指针”之外 m 步的项，其中一旦找到任何键码，它就可作为后面操作的一个“指 

针”。[参见 S. Huddleston 和 K . Mehlhorn，Acta ini '. 17 (1982) ，157〜 184] 。 

32. 每一个右转动使诸 r 之一加1而使其它的保持 不变； 因此是必要 
的。为了证明它是充分的，假设对于<々，~ = 4但 q 。于是存在一个右 
转动，它把 q 增加成一个的值，因为数满足习题 2.3. 3- 19 ( a ) 的条 
件。 

注：由 D . Tamari 于1951年首先引入的这个偏序，有许多有趣的性质。任何两 
棵树都有由右子树大小 min ( r x , r\ ) min ( r 2 , r 2 ) … min ( ， < ) ， 确定的最大下限 
















6.2.4 小节 


了八7"，以及由左子树大小 minC /!,/； ) min ( Z 2 ， G ) … min ( X ， rj 确定的最小上限 T 
V T\ 当然左子树大小比算法 B 和 C 的 RANK 子段小1。关于进一步的信息，参见 

H. Friedman 和 D. Tamari ,J. Combinatorial Theory 2 (1967) ， 215 〜 242 ， 4 (1968 ) ， 
201 ;C. Creene,Europ . J . Combinatorics 9 (1988) ， 225 〜 240; D. D. Sleator , R. E. Tar- 
jan 以及 W. P. Thurston，/. Amer. Math. Soc. 1 (1988) ， 647 〜 681; J. M. Pallo ， Theo- 
retical Informatics and Applic 27 (1993) ， 341 〜 348; M. K. Bennett 和 G. Birkhoff Al¬ 
gebra Universalis 32 (1994) ， 115 〜 144; P. H. Edlemn 和 V. Kemer y Mathematika 43 

(1996)，127 〜154。 

33 .首先，我们可以在每个节点 P 中把存储减少成一个二进位的 A ( P ) ，使得每当 

LLINK(P) 和 RLINK(P) 都非空时， B(P) = A(RLINK(P)) - A(LLINK(P) ) ; 否则 B(P) 是已 

知的。而且，每当 LLINK ( P ) 和 RLINK ( P ) 都为空时，可假定 A ( P ) 二0。于是每当 A ( P ) 
=1时通过交换 LLINK ( P ) 和 RLINK ( P )， 在所有其它节点的 A ( P ) 可删去。 KEY ( P ) 同 

KEY(LLINK(P)) 或 KEY(RLINK(P) ) 的比较将确定 A(P )。 

当然，在指针总是偶数的机器上，在每个节点上存在两个无用的二进位。如同 
在习题 2.3.1-37 中那样，进一步的节省是可能的。 

6.2.4 小节 

1. 双节点分开： 



2 .改变的 节点: 



(当然一株 B #树没有非根的3键码节点，尽管图30有这种节点。） 

3. ( a ) 1 + 2.50 + 2.51.50 + 2. 51.51.50 = 2.51 3 - 1 = 265301。 （ b)l + 2.50 + 
(2.51.100 — 100)+ ((2.51.101 - 100) • 100 — 100) = 101 3 = 1030301 0 ( c ) 1 + 


703 






习题答案 


2-66+ (2-67-66 + 2) + (2-67.67.66 + 2.67) = 601661。(小于 （ b )!) 

4. 在分开一个非根的节点之前，先弄清楚 ：它确 有两个已装满的兄弟，然后才把 
这三个节点分成为4个。若此节点是根，则仅当它有 3 L (3 m -3)/4」个键码以上时 
才能分开它。 

5. 解释1，试求所述极小的极大:450。（如果我们有1005个字符，而且被传送给 
父节点的键码必须是50个字符长，则最坏的情况就出现了 ：445字符+指针+ 50个 
字符的键码+指针+ 50个字符的键码+指针+ 445字符。） 

解释2,试使分开之后键码的个数相等，以便保持高的分支因子 ： 155(15 个短的 
键码后边跟有一些16个字符长的键码）。 

关于进一步的评述，请见 E,M. McCreight,CACM 20 (1977) ,670 - 674 0 

7 . 如果有待删去的键码不在级 Z - 1 上，则以它的后继者代替它，并删去这个后 
继者。为了删去在级 Z _ 1上的一个键码，我们简单地抹 掉它； 如果这使得节点太 
空，则就考察它的右（或左)兄弟，并且“下溢”，即，从这个兄弟移进一些键码，使得这 
两个节点近似地有相同的数据量。这下溢的操作仅当该兄弟的装满程度为最低时 
才无效，但在该种情况下两个节点可以叠合成一个（同来自它们的父节点的一个键 
码在一 起）； 这样一个叠合可能引起这个父节点进一步下溢，等等。对于如同在习题 
5中那样的可变长的键码，当一个父节点的诸键码之一变成更长时，它可能需要分 
开。 

8. 给定有 iV 个内节点的一 个树％ 并设有 af 个外节点，它需要6个访问，且 

其父节点属于包含7个键码的一 个页； 并设 A 〃（ z ) 是对应的生成函数。于是 
A (1 )(l) + …+ 八 ( ％ )(1) = ^/ + 1。（注意，对于 l < j < M ， a ( k J ) 是 j + 1 的倍数。）下一 

个随机插入导致 iV + 1个同等可能的树，通过某个系数减 ； + 1和加 ； + 2到 
七 + 1) 上；或者（如果 ； = M) 某 d M) 减 1 并且加 2 到 a% 上，可得到其生成函数。 

现在是 （iV + ir 1 乘以对于7的生成函数 A ⑺ U ) 取遍所有树 f 之和，再乘 

以7出现的 概率; 这即得出所述的递推关系。 

递推式有形式 

(B 屮 （ z ), …， B ( n m )( z)) t =(I + (N + l )~ 1 W ( z ))( B ( N 1 l 1 ( z ) r -, B ( N M \( z)) T = 

…= gN ( W ( z ))(0 ,0 ,1 ) T 


具甲 



2/jV(W)MM ， 其中 /„(x) = g „ —；1(： C )/(7 Z + 1) + … + go ( x )/2 = ( g n ( x ) - D / x ， 而且 

W ( l )( 下标 MM 表示矩阵的右下角元素）。现在 W = SddiagUi ，…， A m ) S ， 
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其中 S 是某个矩阵， diagUi ，…， A „) 表示其元素是 x ( A ) = (A +2 ) … （A + M + 1) _ 

( M +1)! 的根的对角矩阵。（这些根是不同的，因为 x ( A ) = f ( A )=0 意味着1/ 
(入+2) +〜+ 1/(久+ ]^+1)=0;后者仅当2是实数且 - M -1< A < -2 时才能成 
立，它意味着 |A + 2 |… |A + M + l | <(M + 1)! ，矛盾。）如果 >( x ) 是任意多项式，则 

p ( W ) = 户 （S — MiagUi ，…， A M ) S ) = S ~ l dmg ( p ( Xi ) ，… ，户 （ Am )) S ; 因此户 （ W ) 的 
右下角元素有形式+…+ c M p ( A m ) ，其中 C ] , c 2 , , c M 是某些同户无关的 
常数。这些常数可以通过置 p ( A ) = X ( A)/(A - 来 求值； 由于对于 
(#) mm =(-2 )S 我们有 p ( W) MM = p (-2) = ( M + l)l IU ，2) = Cj pUO 二 
' ( A ; ) = Cj(M + 1) \ (1/( A ; + 2) + … + 1/( A ; + M + 1)); 因此， c 7 . = ( + 2) _ 1 ((1/ 

( A ; +2) + - + l /( A ; + M + l ))_ 1 。 这得出 了一个“显式”公式 C / N = T , fi l 2 c J f N Uj )^ 
剩下只是研究诸根 A ; 。 注意对于所有 j , I A ; + M + 1 1 <M + 1，否则我们有 I A ; + 2 | 
••• I A ; + M + 1 1 >( M +1)!， 矛盾。取 Ai = 0, 这意味着对 A ; ) < 0。由 
等式 1.2.5 — (15)， 当 n — oo 时 A ( x) 〜 u + l )" r(x + 2); 因此对于 2< J < M ， 
A ( A ; )—0。 结果 C ； = 2 Cl / N (0) + 0(1) = H N /( H M +1 -1) + 0( l)o 

注 意：上 述分析也与在 5.2.2 小节中简短地讨论的“抽样排序算法”有关。这些 
计算很容易推广以证明对于 1< j < M ， B ( /(1) 〜 ( H m + 1 - l)- l Kj + 2)，且 

B ^ M ) (1) 〜 （ H M + 1 - 1)^/2。因此在未充满的页上内节点的总数近似地为 




x 2 


4x3 


(M - 1) x M 


M 



H 


M+1 


- 1 


2(H m+1 - 1) 


并产生 2( h m +1 - D / m 的近似的存储利用。 

这个分析已由 Mahmoud 和 Pittel[J. Algorithms 10 (1989) ，52〜75 ] 作了 推广， 
他们发现，存储利用的方差经历一个令人惊讶的阶段转换，当 M <25 时方差为 

0( N ); 但当 M >26 时，它渐近地为 /( N)N — 1 + 2 %其中如果-士 + « + 历和 - | + 

a - pi 是有最大实部的非0根 ，则 f(e n ^N ) = f(N ) 。 

L . Devroye 曾分析了 这样的树的高度。 [ i^ancfom Structures and Algorithms 1 
(1990) ,191 〜 203]; 也见 B . Pittel ， Random Structures and Algorithms 5 (1994), 337 

〜347。 

9 . 是; 例如，我们可以以 f 代替 （1) 中的每个&加上在子树 P Q ，. . . 中键码 

的个数。可适当地修改查找，插入和删去算法。 

10 . 简单的概述，推广页方案，使得在一个时刻对一个用户赋予对缓冲区的排它 
访问； 必须小心地修改查找，插入和删去算法使得仅仅对于绝对需要时的一个极限 
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时间。这样的排它访问才被批准，并且以不出现死锁这样一种方式进行。关于细 

节，请见 B . Samadi ， Jnf . Proc . Letters 5 (1976) ， 107 〜 112 ; R . Bayer 和 M . Schkolnick ， 
Acta Inf . 9 (1977) ，1 〜 21; Y . Sagiv , J . Comp. Syst. Sci. 33 (1986) ， 275 〜 296。 

6.3 节 

1 . 叶（复数）， 

2. 利用新的键码作为变元实施算法 T ; 它将在步骤 T 3 或 T 4 中以失败告终。如 
果是在 T 3 中，则只需置 NODE ( P ) 的表项丨成为 K 并终止此插入算法。否则置这个 
表项成为一新节点 Q <= AVAIL 的地址，该节点只包含空的链接，然后置 P — Q 。 现在置 
k 和 f 分别成为 K 和 X 的下一个 字符； 如果々7^/，则把 K 存入 NODE ( P ) 的位置々 
处，并把 X 存入位置 f 中，但如果纟= f ，则再一次使丨的位置指向一个新节点 
AVAIL , 置 P — Q ， 并且重复这个过程直到最终 々关 〆 为止。（我们必须假定没有一个 
键码是另 一^ 个的前缀。） 

3. 在键码出现的节点处，以一个空的链接来代替此键码。如果这个节点现在成 
了无用的，因为它除了有一个项是键码 X 夕卜，其它的所有项都是空的，则删去这个 
节点，并且以 X 代替它父节点中相应的指针。如果父节点现在已成为无用，则以同 
样的方式删去它。 

4. 在压缩了的表中，如果查找是成功的，则情况和完全的表是一样的，但如果查 
找是不成功的，则可能要多费若干次另外的迭代。例如，如像 TRASH 这样的输入变 
元将使程序 T 花费六次迭代（多于五次 ！）； 这是最坏的情况。有必要验证，对空白的 
序列不可能有无穷的循环。（这个有名的49位压缩法是由 J . Scot Fishburn 给出的， 
他证明了 48个位置是不够的。） 

Kurt Maly , CACM 19 (1976),409-415 已经提出对于检索结构存储的一个较 
慢的但有更多种多样节省的方法。 

一 般来说，如果我们要来压缩分别含 xi , 个非0项的 n 个稀疏表，贝 1 J 用 

同以前放置的表不相冲突并以极小数量补偿第 7 个表的“最先适配”方法，将有 

, 因为每个以前的非0项顶多能封锁&个 偏离。 对于表1中 
的数据这最坏情况估计给出 r ; <93, 并保证分别含有10,5,4,3,3,3,3,3,2,2,2,2 

个非0项、长度为30的任何12个表可以压缩成93 + 30个连续的单元，而不论非0 
项的模式如何。 R . E.Tarjan 和姚期智已经给出对于这个方法进一步的改进， CACM 
22 (1979),606 〜611。由 F . M . Liang 给出的压缩检索结构的一个动态实现，用于 
T e X 打字系统的连字表 格中； 参见 D . E . Knuth,CACM 29 (1986) ,471 -478^ iter ¬ 
ate Programming (1992) ，206〜233。 

5. 在每个族中，通过从左到右地以概率递减的次序排列字母，首先测试最可能 
的结果。这排列的最优性可以如同在定理 6. 1 S 中那样证明。[参考 CACM 12 


* 树 (tree) 的叶为 leaf ， 因此检索结构 （ trie) 的叶为 LieL 前者复数为 Leaves ， 后者复数为 Lieves 0 
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(1969)，72〜76 0 ] 


6.3 节 


6 . 




IT 


-IS 

■IN 

- OR 

- ON 

■OF 

-AT 

■ ARE 
-AS 

-A 

- AND 
TO 
THIS 
THAT 
THE 






YOU 

NOT 

FROM 

FOR 

BUT 

BY 

BE 

WHICH 

WAS 

WITH 

HIS 

HAD 

HAVE 

HER 

HE 





7 . 例如，8,4，1，2,3,5,6,7，12,9，10，11，13，14，15。(不管使用什么序列，左子 

树在级4上不能包含多于两个节点，右子树也不能。）甚至这株“最坏”的树也是在最 

好的四株树之内，所以我们看到，数字查找树对于插入次序不是非常敏感。 

8. 是。 KEY 字段现在仅仅包含一个截断了的键码；由节点位置所蕴涵的诸前导 

二进位被砍掉了。（算法 T 的一项类似的修改是可能的。） 


9. 



START LDX 

K 

1 D1. 初始化。（汉 K) 

LD1 

ROOT 

1 P—ROOT(rIl 三 P) 

JMP 

2F 

1 
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4H 

TiD2 

0,1(RLINK) 

C2 


J2Z 

5F 

C2 

1H 

ENT1 

0,2 

C-1 

2H 

CMPX 

1,1 

C 


JE 

SUCCESS 

C 


SLB 

1 

c- S 


JAO 

4B 

c-S 


LD2 

0,1(LLINK) 

Cl 


J2NZ 

IB 

Cl 


D4. 右移， Q—RLINK(P) 

如果 Q = A ， 则移到 D 5 

P—Q 

D2 . 比较 

如果 K = KEY(P )， 则转出 

把 K 左移一个二进位 

如果移掉的二进位是1，则转到 D 4 

D3 . 左移。 Q^-LLINK(P) 

如果 QfA ， 则以 P — Q 转到 D 2 


5H 如同在程序 6.2.2T 中那样继续，并交换 rA 和 rX 的作用 。I 


这个程序查找阶段的运行时间是 （ IOC -3 S +4) W ，其中 C - S 是二进位探查 
的数目。因此，对于随机数据，近似的平均运行时间是 

成功的 不成功的 

程序 6.2.2 T 151 nN -12.34 151 niV —2.34 

这个程序 14.41 nN -6.17 14.41 nN + 1.26 

(因此，除非 iV 非 常大； 程序 6.2.2 T 要稍许快些。） 

10. 设 ㊉ 表示对于 n 个二进位数的异或操作，而且设 f ( x )- n - rig( x + 1)1, 
是 x 的前导0位的个数。 一 种解法 ：（ b ) 如果算法 T 执行的一个查找在步骤 T 3 处 
以失败告终，则 K 比至今所作的二进位探查数小1;否则如果查找在步骤 T 4 处结 
束，则 A=/(K ㊉ X) 。 (a,c) 做正规的查找，但是也要随时记住相对于在查找过程 
中与 K 作过比较的所有 KEY ( P )， K ㊉ KEY ( P ) 的极小值: c 。 于是 A =/ U )。 （证明，和 
K 比较过的键码与 K 相同的二进位个数，比没有同 K 比较过的其它键码为多。在情 
况 (a) 中，极 大的々 值或者对于的最大键码，或者对于 >K 的最小键码出现。） 

11 . 否； 消去只有一个空子树的一个节点会“忘掉”在非空子树键码中的一个二 
进位。为删去一个节点，应该以它的终端后代之一代替它，比如说，只要可能时通过 
向右查找来实现。 

12. 把在0和1之间的三个随机数《，/?，/插入到开始时为空的一株树中；然后 
使用前面答案中所建议的算法，以概率 P 删去《，以概率 g 删去/?，以概率 r 删去 y ， 

则我们以概率+ 士9 + r 得到树 



而且仅当 p = 0 时，这概率是+。 

13.对每个节点加一个 KEY 字段，而且在考察步骤 T 2 的向量元素之前把 K 同 
这个键码加以比较。表1将改变如下：节点（1)，*"，（12)将分别包含键码 THE , AND , 
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BE JOR ， HIS , IN , OF , TO , WITH , HAVE , HE , THAT (如果我们按频率递减的次序插入它们 

的话），而且这些键码将从它们以前的位置中被删去。[对应的程序在这种情况下将 
比程序 T 更慢和更复杂。算法 D 的一个更直接的 M 进推广将建立具有 N 个节点 

的一株树，每个节点有一个键码和 M 个链接]。 

14. 如果，则仅有一个位置，即 KEY ( P ) 。但是如果 j > n ，则通过遍历节点 P 

的子树找出所有出现的 集合： 如果有 r 个出现，则这株子树包含 r _ 1个节点（包括 
节点 P 在内），而且因此它有 TAG =1 的 r 个链接字 段的； 这些链接字段都指向访问 
和 K 匹配的 TEXT 的位置的所有节点（完全不必再检验 TEXT 了）。 

15. 为开始形成这株树，置 KEY ( HEAD ) 成为第一个 TEXT 访问，而且置 LLINK 
( HEAD )— HEAD , LTAG ( HEAD )—1。用下列插入算法把其余的 TEXT 访问记入树中。 

置 K 成为我们希望记入的新键码。（这是插入算法所作的对于 TEXT 阵列的第 
一次访问）。实施算法 P ; 它必然以失败告终，因为不允许一个键码是另外键码的一 
个前缀。（步骤 P6 作对于 TEXT 的第二次 访问； 不再需要更多的访问了！）现在假设 
在步骤 P6 中找到的键码同变元 K 在前 Z 个二进位中一致，但是在第 / + 1 个位置却 
不同，在 K 中是数字6而在键码中是1-6。（尽管算法 P 中的查找可能要使』比 Z 
大得多，但可以证明，这里所确定的过程将在 K 和现存的任何键码之间求得最长的 
匹配。于是，以 K 的前 Z 位开始的正文的所有键码，都有1 - 6作为它的第/ + 1位 
二进位。）现在重复算法 P 并且以这些/个前导二进位代替 K (即 n — l )。 这次查找 
将是成功的，所以我们不必实施步骤 P6 。 现在置 R <^ AVAIL ， KEY ( R )— TEXT 中新键码 
的位置。如果 LLINK ( Q ) = P ，则置 LLINK ( Q )— R ， 乙 — LTAG ( Q ) ， LTAG ( Q ) — 0 ;否则置 
RLINK ( Q )— R ， Z — RTAG ( Q )， RTAG ( Q )— 0。如果 6 = 0 ，置 LTAG ( R ) —1 ， LLINK ( R )— R ， 

RTAG ( R ) — f ， RLINK ( R )— P ; 否则置 RTAG ( R ) —1， RLINK ( R )— R ， LTAG ( R ) — f ， LLINK ( R ) 

— P 。 如果〖=1，则置 SKIP ( R ) —1+ Z 否则置 SKIP ( R )^1 + / - ; + SKIP ( P ) 和 

SKIP(P)^; -1 — 1 。 

16 . 树的建立恰恰需要从下边的一个节点到该节点的一条虚线的 链接； 它来自 
树的一个部分，在这部分中此键码第一次不同于所有其它键码。如果树中没有这样 
的部分，则这些算法失败。我们可以简单地去掉作为其它键码的前缀的键码，但那 
样的话习题14的算法将没有足够的数据来找出这个变元的所有出现。 

17. 如果我们定义 a 0 = a x =0,则 

x n = a n - SO - l ) k d k l ( m k ~ l ~ 1) = S (: )( - ^) k a k ^ n k ~ l K ^ n k ~ 1 - 1) 

18 . 为了解 （4)， 我们需要、= [ n > l ]， 即‘ = [ n =0] - 1+ n ; 因此对于 

2 ,我们得到 A N = 1 - L / N + 这里用的是习题19的记号，其中 U n = K ( N ，0， M ) 

和 V N = K ( N ，1， M )。 类似地，为了解 （5) ，取= 72 - [7 z = 1] =心，而且对于 
2,得到 C n = N + V n 。 

19•对于5 = 1，我们有 V n = K(n ,1, m ) — n(ln n + 7 )/lnm ~ ~2 ~ ^ o( n — 1)) 
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+ 0(1)，而且，对于 S >2, 我们有 

K(n , s , m) = ( - l) s n( l/lnm + d s -i(n - s))l s(s - 1) + 0(1) 

其中 


d 


s(n) 


2 

Inm 


2 9^(r( s — 2Tci^/ln m 


m 


n 


)) 


k >\ 


是 logn 的一个周期函数。[在这个推导中我们有 


K(n + s ， s ， m)l ( - V) 


S 


n 



n 


— 5 + 1 广 l/2 + i 


T(z) n 


5 — 1 - 


dz 


2m 


1/2 —i 


m 


S~l~ Z 


-1 


+ 0( n 


对于小的 m 和 s ， 诸 S 小得可以 忽略； 参见习题5.2.2-46。注意，对于固定的 a ， 


d s (n — a) 




d s (n) + 0(n 


-1 


)]o 


20 •对于 （ a ) ， 令 a n = [n> s] = l~ = 是] ; 对于 （ b ) ， 令 a n = n~ I] s k = 0 k[n 二 

对于 ( C )， 我们要解递推式 



对于 n > s 

对于 w ^ 


置： r n = ： y n - n 得出习题17形式的递推式，且 


〜二 （1 - M " 1 ) X ) )[n = k'_ 

k 二 Q I 

因此，在前边习题的记号下，答案是 （ a ) l - K ( iV ，0， M ) + K ( iV ， l ， M )-〜 + 
( — l) s — 1 K(N ， s ， M) = N/( s lnM) — N(d — 1 (N) + d 0 (N-l) + d 1 (N — 2)/2.1 + ... 

+ d s -八 N-s)ls(s — l)) + 0(1) ;( b ) N — HN + K(N ， 1,M) —2K(N ， 2 ， M) + … 


+ ( — I) 5 - 1 水 ( iV 山 M )) = ( lnN + / - H .- J/ln M + y - ( ( N - 1) + ^ ( N - 

2)/1 + … + KU/G-1)) + 0(iV- N- 1 (N+(l-M~ 1 )J ： U 2 (-l) k 

( 〗 K(N, k , M)) = 1 + 臺 (1 — ((s - 1 )/ln M + — 2) + … + 8 s -i(N - 

s)) + 0(N~ 1 ) 0 

21 . 设共有 A n 个节点。非空指针的个数是 A N - 1，而且非指针的个数是 iV ， 因 
此空指针的总数是 MA N - A N + 1 - N 。 除以 77 Z ， 即得它们在任何固定位置中空指 
针的平均值。 [ A N 的平均值岀现于习题 20 U ) 中。] 

22 . 对于 M z 个前导二进位序列中的每一个，存在一个节点使得至少两个键码 
有这个二进位型。由于恰恰6个键码有一个特定的二进位形式的概率是 

所以在 Z 级上检索结构的平均节点数是 M z ( l - (1 -M —0 N ) - iV ( l-M — O " — 1 。 

23 . 更一般地说，考虑如同习题 20 中那样任意 s 的情况。如果有 a z 个节点在 
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级/上，则它们包含 七 + 1 个链接以及 - 心 + 1 个位置，在这些位置上查找可能是 

不成功的。数字探查的平均数因此将是- a / + 1 )= 

M - l a lo 把七的 这一公式使用于一随机检索结构中，它等于 

, K(N + 1,1, M ) - 2 K(N + 1,2, M ) + …+ ( - 1 ) 5 G + 1) K(N + 1,5 + 1, M ) 

1+ nTI 



d s (N - s ) 

S 


+ CKN — 1 ) 


24•我们必须解递推式对于 




= m 


- n 



s 



m 







+ S 



^71 




y?i 


m 


n 



n 


n . + … + n 


n \n x ,-^n 


y n 




y 


n 



m 



n 


; 7^ 0] 


n 


m 


K j ^： m 


m 



71 



m 


1- n 


n 


2 i ^ \yk 


其中， a „ = m(l — (l — l / m )”） 和 b n ^ -^~{m ~ l)n(l ~ (1 ~ ll m) n )。 由习题 17 


和18,答案是 ( a ) 


N 



V N 


l/ N - [以二幻二八〜+以-仅这是可以直接得到的 


个结果，因为在森林中的节点个数总比在相应的检索结构中的节点个数多 N - 1 


个！ h 而 （ b ) y N lN = f ( M - l ) V N lN 
l )) + 0(N~ 1 )o 


2 


(M — 1 )(In N + y)\n M 


2 


d 0 (N 


25. ( a ) 设 A n = M ( N -1)/( M - 1)-£^;于是对于 N 彡2,我们有 （1 


M 


1 - N 


En 


m 


—1 


M (1 


1/ M ) 


N- 1 



M 


1 - N 


N 


Ua KM-in 

k 


o 


由于 M - l > 


M (1 


1/ M ) 


N—l 


，由归纳法，我们有 E n >0 o ( b ) 由定理 1.2.7 A 连同 X = 1/( M -1) 


和 


n 




N - 1，我们求得 D n 


a N 



M 


1 - N 


s 


N 

k 


(M 


1) 


N-k 


，其中 ai = 0, 且对 


于 N >2,0< a N < M(l 


1/ M ) 


N 


M<(M —1 ) 2 /Mln M 。 因此， 0< D n <(M 


1) 2 A N /Mln M<(M 


1 )(N 


l)/ln M 


o 


26 .在习题 5.1.1-16 的第二个恒等式中取 


2， 


Z 


2 


我们得到1/3 


1 /(3.7) + 1/(3.7.15)-… =0.28879; 若使用 z = - |和取这个结果的一半则要稍 

快些。或者，可以使用来自习题 5.1.1-14 的欧拉公式，它仅涉及2的负的次幂。 
(John Wrench 计算了 40位的值即 0.2887880950 86602 42127 88997 21929 23078 
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00889+ 0 ) 

27. (为了开心，下列推导进行到 0( N -”。) 在习题 5.2.2-38 和 5.2.2-48 
的记号下，我们有 


C N 


= Un + iV — 1 + 


V]V+1 
N + 1 



其中 


S 

n ^2 


( 一 1 ) r ? 2— 打 ( 打 + 1 )/2 



m^O 


(2 


1 — n 


m 


( 1-2 


m 


N 



a =2/(1 - 1) - 4/(3 • 3 • 1) + 8/(7 • 7 • 3 • 1) - 16/(15 • 15 • 7 • 3 • 1) 

1.60669 51524 15291 76378 33015 23190 92458 04806 — 

以及 /? = 2/(1-3-1) -4/(3-7-3- l ) +8(7-15-7-3-1)-0.60670。这个数值计算 
提示 a = /?+1，这是不难证明的一个事实而且， a 原来竟和在 5.2.3-(19) 中十分不 
同地定义的常数 相同； 参见 Karl Dilcher ， Disc . Mai 145 (1995 )，83 〜93。由习题 
5.2.2-46, S m >0 (2 1 ^) m ( l -2 -^) N 的值是 O ( iV 1 — U N + iV + 1 ) 二 U N + l - 

Un o 因此由习题 5.2. 2-50， Cn = Un + i ~ (a — 1) N ~ a + 0( N ~ 1 ) — (N + l ) lg (N 


+ l) + N((/-l)/ln2 + y-a + ^_ 1 (N)) + y-l/ln4-a-y^ 1 (N) + 0(N -1 )o 


Kirschenhofer ， Prodinger 和 Szpankowski ,SICOMP 23 (1994)，598 〜 616 计算了 

一个数字查找树的内部路径长度的方差。 

28.如果我们在显然的位置中以 M 替换2,则正文中和习题27中的推导可应用 
于一般的 M >2 0 因此在一次随机的成功查找中平均的数字探查次数是 "^/iV = 


U N + \ - a M + 1 + O ( N ~ l ) = log M N + ( 7 - 1 )/ln M + y -« ivf +^_ 1 ( N ) + 

(k)g M iV)/iV+ 0(iV —o; 而且对于不成功的情况它是 Q + 1 -亡 N = v n + 2 /(N + 2)- 

« m + 1+ 0(N ! ) = log M N + //In M + 士 — - 汐 0 (N+1) + 0(N -1 ) 0 这里汐 5 ( n ) 

在题 19 中定义 ，而 S ( — lVM ; + 1 /(iVF + 1 — 1) 2 (]^ — —1)。 

j>0 

29 .Flajolet 和 Sedgewick [SICOMP 15 (1986) ， 748 〜 767] 证明了，当 M = 2 时 
这样节点的近似平均个数是. 372 iV ， 而当 iVf =16时是. 689 iV 。 也请参见 Flajolet 和 

Richmond 的推广 , Random Structures and Algorithms 3 (1992) ， 305 〜 320。 

30 .通过迭代递推式， / i „( z ) 是形如 




，对于 n > p x > > p m > 1, 


的所有可能的项之和。 

31 ./ i : (1) = 。参见习题5 . 2 .2-36( b ) 。[关于 Patricia 树的 M 叉推广的方差 

和极限分布，参见 P . Kirschenhofer 和 H . Prodinger , Lecture Notes in Comp . Sci . 226 
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(1986) ，177〜185; W. Szpankowski，/ACM 37 (1990), 691 〜 711 ; B. Rais ， P. Jacquet 
和 W. Szpankowski ,SIAM J . Discrete Math 6 (1993) ， 197 〜213。 ] 

32. SKIP 字段之和是在对应的二进检索结构中的节点数，所以答案是 A N (参见 
习题20)。 

33. (18) 是这样发 现的 ： A (2z) -2AU) = e 2z —2e z + 1 + A“ ）（ e z _ 1 ) 可以被 
变换成为 A(2z)Ke 2z -l) = (e z -l)Ke z + l) + A(z)l(e z -l ) 0 因此 AU) 二 






e 


% 


I2 J _ 


1 )/( 


e 


z 


12 



现在如果 / U )= 


则 2^/( 


-1)。 在这种情况下 f( z ) = (e z - l)/(e z + 1) = tanhU/2)， 它等于 1 


2 


z 


-1 



z \ e 


z 


1) — 2z/(e 


2 


z 


l)) 




B 


J n^l + 1 ^ 


n (2 n 


- 1 )/( 


n 



D! 


o 


从这个公式 


出发，下一步该怎么走就清楚了。 


34. (a ) 考虑 —D ; 由习题 1.2.11.2 — 4,1” — 1 + …+ (m — 

1)” 1 = (B n (m) ~ B n )l n o (b) 设 ( m ) = / (1 - A/m ) "和 了„ ( m ) = 1/( 

一 1 )。如果々 < m/2 , 我们有 e > exp (n\n(l - kl m)) > exp ( - knl m - k 2 nl 
m 2 )>e~ knlm (l - P/m 2 ) ，因此 （1 - kl m) n = e- knlm + O (e- knlm k 2 nl m 2 ) 。由于 

S„(m) = Srgd —+ 0(2 — ”）和 T n (m) = + 0(e — W2 )， 因此我 

们有 S n (m) = T n (m) + 0(e" nlm n/m 2 、 。 O (exp (- n/2 J ) W2 2j ) 之和是 O ( n — 1 ) ， 

因为对于 j<lgn 这个和有 n— 1 (1 + 2 心 +(2/ 6 ) 2 + .") 的阶，而对于 j^lgn 这个和有 
tz _1 (1 + 1/4+(1/4) 2 + … ）的阶。 （ c ) 当 M<27t 时和在 5.2. 2 小节一样进行论证， 

然后使用解析的连续性。 （ d)|lg(nM + 7/(21n 2) _ + 5( n ) + 2/n ，其中 


谷 （ n ) = (2 /ln 2) a ， 1 況 ( S (- 2 mkl\n 2) T (— 2 mkl\n 2) exp (27 ci^lg n )) = 

(l/ln 2) D 々〉#( S(l + 2 丌 i々/ln 2)exp(27ci^lg( ti / tc ) ))/ cos h (丌 2 々/ln 2) 

W. Szpankowski, JACM 37 (1990) ,691 〜 771 计算了方差和更高的矩量。 

35. 诸键码必须是 j ， a0々lct>2 ， aly0ct>3 ， alylS0ct>4 ， alylSlct> 5 丨，其中 a, 

小…是 0 和 1 的串且有|«| = a _ l ，|々| =6-1， 等等。五个随机键码有这个形式的 

2 a — 1 + 办— 1 + c — 1 + d — i / 2 a + 6 + a + 6 + a + c + a + c + d + a + c + d = 5! l2^a + 6 + 2c + d + 4 

36 . 设有 n 个内节点。 (a)u! /2 1 )11 (H s ( x )) = n \ IT ( 1/2 心 ) 一 1 s U )) ，其中 
了是此树的内部路径长度。 （ b ) ((” + 1)! /2〃）TT(l/(2‘） -1))。 （考虑对于所有 
的来对习题35的答案求和。） 

37. 最小的修改了的外部路径长度实际上是 2-1/2 N — 2 ，而且它仅出现在一株退 

化的树(其外部路径长度为极大者）中。[可以证明，最大的修改了的外部路径长度 

出现的条件是当且仅当外节点出现在至多两个相邻的级上！但是如果说凡是其外 

部路径长度小于另一株树的外部路径长度者，一定有一个更大的修改了的外部路径 
长度，这一点就不见得总是正确的了。] 
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38.把求具有参数 （ a ，/ ?) , i^a 
些子问题。 



，…， U ，2〃 V )的那些 A 节点的树看作是一 


39 .见 Miyakawa ， Yuba ， Sugito 及 Hoshi Mamoru ,SICOMP 6 (1977) ， 201 〜234。 

40 .设 Nlr 是这个序列的真的周期长度。构造一株 Patricia 类型的树，以 
…作为 TEXT, 且有从位置0，1，…， iV/r - 1处幵始的 Nlr 个键码。（没有任何 

键码是另一个的前缀，这是由于我们对 r 的选择所致。）在每个节点中还包括一个 
SIZE 字段，该字段包含在此节点下面的子树中带标志的链接字段的数目。为做此特 

定的操作，使用算法 P ; 如果这次查找是不成功的，则答案为0,但如果它是成功的， 
而且则答案为 r 。 最后，如果它是成功的，而且，则答案为 r-SIZE(P) 0 

43.预期的高度近似于 （1 + lMlog M iV ， 而方差为0(1)。参见 H . Mendelson , 


IEEE Transactions SE - 8(1982)，611 〜 619 ;P. Flajolet ， Acta. Informatica 20 (1983) , 
345 〜 369; L. Devroye, Acta Informatica 21 (1984), 229 ~ 237; B. Pittei,Advancedsin 
Applied Probability ,18 (1986 ) ， 139 〜 155 ; W • Szpankowski Algorithmic^ 6 ( 1991), 
256 〜 277 。 


具有 M = 2 的一个随机数字查找树的平均高度是近似于 lg n + V2 Ign [ Aldous 
和 Shields , Probability Theory and Related Fields 79 (1988) ,509 〜 542] ，而且对于 一 ‘ 
个随机 Patricia 树同样的结论成立 。 [Pittel 和 Rubin Journal of Combinatorial Theo¬ 
ry A 5 5 (1990)，292〜312 o ] 

44 . 参见 SODA 3 (1997),360 〜 369; 这个查找结构同在习题 5.2.2-30 的答案中 
讨论的多重键码快速排序算法密切有关。 J . Cl 6 ment ， P . Flajolet 和 B . Vallee 已经证 

明，三叉表示使检索结构查找大约比 (2) 的二叉表示快三倍，相对于访问的节点而言 
[参见 SODA 9 (1998),531 〜539。] 

45. | THAT, THE ， THIS 丨在丨 BUILT , HOUSE, IS, JACK 丨之前，丨 HOUSE , IS , JACK 丨在 
1 BUILT I 之前，丨 HOUSE ，工 S 丨在丨 JACK) 之前， US 丨在 I HOUSE 丨之前， | THIS 丨在丨 THAT, THE} 

之前，以及在 | THATi 之前的概率是+•吾•吾 = — 0 


6. 4节 

1. - 37<rll<46 。 因此在 TABLE 之前和之后的单元必须保证不包含同任何给 
定的变元相匹配的数据。例如，它们的第一个字节可以为0,在这个范围内存储 K 
肯定是坏的！[因此，在某种意义下，我们可以说，习题 6.3-4 中的方法使用较少的 
空间，因为该表的边界决不被超过。] 

2. TOW 。 [读者能否找到至多 5 个字母的十个“常用的”字，填满 - 10 和 30 之间 
所有剩下的间隔？] 

3. 字符代码 A+T=I + N 和 B-E = 0-R, 所以我们有 /(AT) = /(IN 或 /(BE) = 

/(OR )。 注意表 1 的指令 4 和 5 相当好地解决了这个问题，同时保持 rll 没有太宽的 
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范围。 

4.考虑具有&个对的情况，使得对于 w = 365 



最小的 n 是88。如果你邀请88人（包括你自己在内），则生日试验的机会是 • 
511065,但如果来了 87人，则它就降低到 . 499455。参见 C . F . Pinzka,AMM 67 


(1960)830。 

5. 散列函数是坏的，因为它假定顶多有26个不同的值，而且它们中的某些要比 
其它的那些更经常地出现。甚至对于双重散列（比如说设 h 2 ( K ) = l 加上 K 的第 

二个字节，而且比如说， M = 101) ，查找所减慢的时间将超过由更快的散列而节省的 
时间。还有 M = 100 太小，因为 FORTRAN 程序通常都有多于100个不同的变量。 

6 . 在 MIX 上不行，因为算术溢出几乎总出现(被除数太大）。[最好能计算 （ wK ) 
mod M ， 特别是如果线性探查以 c = 1被使用时，但不幸的是大多数计算机都不允许 

这一^点，因为商溢出了。] 

7. 如果 EU ) 是 PU ) 的一个倍式，则对于所有的代 SjUO = 0在 GF (2^) 
中。设 R ( x ) — x a ! +…+ Jr ' ，其中 a 1 〉…〉 X )且并且选择 Z s 个进一 ' 

步的值 a 5 + 1 ，…，〜，使得 a 1 ，- •- , a t 是小于”的不同的非负整数， Vandermonde 矩阵 



ta' 

a 1 


參## 


ta 

a t 



是奇异的，因为它的前 5 个列之和为0。但这同^^，…， A 是 GF (2” 的不同元素这 


一事实矛盾。（见习题1.2.3-37。） 

[多项式散列的思想由 M . Hanan ， S . Muroga ， F • P . Palermo ， N . Raver 及 G . Schay 
所首创；见 IBM J . Research & Development 1 (1963), 121 129; U . S . Patent 3311888 


(1967) 0 ] 

8 . 由归纳法。强归纳假设可通过对于丨（- l ) k ( rq k + q k — Jd \ = 

( - l) k Kq k d — p k ) + — \ ㊀ 一 Pk — & 一^事实而得到补充。对于 n = 9 L > 92 + > 

2<?2 + ，… ， a 2 <?2 + Ql = 0<?4 + <?3，94十 <?3，…，“4<?4 + <?3 = 0<?6 + <?5， …出现 i M I 的 

“创记录地低”的值;对于 W = qo，qi + <?q ， …， Ah + qo = Oq 3 + <? 2 ， …出现“创记录地 

高”的值。这些是当形成一个具有新的长度编号为0的区间时的一些步骤。[进一 
步的结构可以通过推广习题 1.2.8-34 的斐波那契数系而推演 出来； 参见 L.H. 
Ramshaw, J. Number Theory 13 ( 1981 ) ， 138〜175 0 ] 

9. 我们有 …// 和 ☆ — 2 =//2 ， 1 ， 1 ， …// 。设在习题 8 的记号下 6 
二 II 0^ ， 0 ； 2 ^..//和 d k = // — — …II ，以及 Gk = Qk + qk-\6k-2o 如果 0^ 〉 2, 

则第一次分割是坏的。习题8中的三个区间大小分别是 （1 -呔 ^)/0^ 久— i / Q * 和 

(1- (厂-1)义_ 1 )/^^，所以第一个长度对于第二个的比率是（以 - r ) + 4。当 r = 
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〜和 〜 + 1 >2时，这将小于士；因此，如果我们不希望有坏的分割，则 U 2 ， a 3 ，…丨必 

须都等于1。[关于有关的定理，参考 R . L . Graham 和 J . H . van Lint , Canadian J . 

Math . 20 (1968) ， 1020 〜 1024 ，以及那里所引的参考文献。] 

10. 见 F . M . Liang 在 Discrete Math . 28 (1979) ，325〜326中漂亮的证明。 

11. 如果 K = 0, 则将是有问题的。如果要求键码如同在程序 L 中那样是非0 
的，则这个变化将是值得的，而且我们也可以用0表示空位置。 

12. 我们可以把 K 存于 KEY [0] 中，用下列诸行代替行14〜19: 


2H 



STA 

TABLE(KEY) 

A - SI 

CMPA 

TABLE,2(KEY) 

A - SI 

JE 

3F 

A - SI 

ENT1 

0,2 

C - l - S 2 

TiD2 

TABLE,1(LINK) 

C - l - S 2 

CMPA 

TABLE,2(KEY) 

c-l- S 2 

JNE 

2B 

C-l - S 2 

J2Z 

5F 

A - SI 

ENT1 

0,2 

S 2 

JMP 

SUCCESS 

S 2 | 


“节省”的时间是 C -1-5 A + S + 4 S 1 个单位，它实际上是一项纯粹的损失，因为 C 
很少大于5。（一个内部循环并不总是优化的！） 


13.如同在算法 C 中那样，设表格的每个表项中有两个可加区分的类型，且有一 

个附加的二进位 TAG[z] 字段。 这个解决办法使用循环表，并遵循 Allen Newell 的建 
议，在每个表的第一个字中有 TAG[i] = l 0 

A1 •[初始化]置 i ^ j ^ h ( K ) + l , Q ^ q ( K ) 0 

A2 •[是否有一个表？]如果 TABLE [ f ] 是空的，则置 TAG[f ] — 1而且转到 A 8。 

否则如果 TAG[f ] =0,则转到 A 7。 

A 3 •[比较]如果 Q = KEY [ z ]， 则这个算法成功地结束。 

A4 .[前进到下一个]如果 LINK[f]7 ^， 则置 LINK [ f ]， 并转回 A 3。 

A5 •[求空的节点] R 减值一次或多次直到找出一个值，使得 TABLE [ i ?] 是空 

的，如果尺=0,则这个算法以溢出 结束； 否则置 LINK [ f ] — i ?。 

A6 •[准备插入]置只 ， TAG [ i ?]— 0,并转到 A8 。 

A7 •[移动一个记录]重复地置 LINK [ f ] —次或多次，直到 LINK [ i ] = j 为 

止。然后执行步骤 A 5 ，然后置 TABLE [ R ]^~ TABLE [ i ] , , TAG[j ]^1 0 

A 8 •[插入新的键码]标记 TABLE[f ] 为一个已占用的节点，且 KEY[f ] — Q ， 

LINK [ f ]— j 。 I 


(注意如果 TABLE[f] 已被占据的话，仅仅给定 f 的值，就有可能确定对应的完全 
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的键码 K 。 我们有 gU )= KEY (0, 而后如果我们置 z ^ LINK [ f ]0 次或多次直到 TAG 

⑴ =1为止，我们将有 h ( K ) 二 i - 1 。) 

14.按照所述的约定， 2.3. 3-(6) 的记号 “ X ^ AVAIL ” 现在代表下列操作 ：“置 X — 

AVAIL ; 然后置 X — LLNK ( X )0 次或多次直到或者 X = A (—个溢出错误）或 TAG ( X ) =0; 
最后置 AVAIL — LINK ( X )。 

为了插入一个新的键码 K ， 置 Q <^ AVAIL ， TAG ( Q ) — 1，并把 K 存入这个字中。 
[或者，如果所有键码都是短的，就省略这个键码，而且在后边以 K 来代替 Q 。] 然后 

置 R <^ AVAIL ， TAG ( R ) —1， AUX ( R )— Q ， LINK ( R )— A 。 置 P —/ i ( K )。 而且 

如果 TAG ( P ) =0,则置 TAG ( P )—2， AUX ( P )— R ; 

如果 TAG ( P ) = 1，则置 S e AVAIL ， CONTENTS (S )—CONTENTS ( P ) ， TAG (P )—2, AUX 
( P )— R ， LINK ( P )— S ; 

如果 TAG ( P ) =2,则置 LINK ( R )— AUX ( P )， AUX ( P )— R 。 

为了恢复一个键码 K :置 P — h ( K ) ，而且 
如果 TAG ( P ) 关2,则 K 不 存在; 

如果 TAG ( P ) =2,则置 P — AUX ( P ); 然后置 P — LIM ( P )0 次或多次直到或者 P = 

八，或 TAG ( P ) = 1，以及或者 AUX ( P ) = K (如果所有的键码都是短的的话），或 AUX ( P ) 

指向包含 K 的一个字（也许间接地通过带有 TAG = 2的字）。 

Elcock 开创性的方案 [ Comp ./. 8 (1965) ，242〜 243] 实际上使用 TAG = 2 和 TAG 

= 3来区分长度为1的表（当我们能节省一个字的空间时）和更长的表。这是一个 
值得的改进，因为我们假设有这样一个很大的散列表，对于它几乎所有的表的长度 
都为1。 

使用连接而不是分开的拉链 ， J . S . Vitter •提岀了把散列表放在一个很大的链接 
内存的“顶上”的另外一个方法 [ Ini '. Proc . Letters 13 (1981) ，77〜 79] 。 

15 .如果总有一个空的节点，则会使得内部查找循环更快些，因为我们不需要维 
持一个计数器以确定步骤 L 2 已被实施多少次。较短的程序足以补偿这一个浪费的 
单元。[另一方面，有一种简洁方式省略变量 N 并允许这个表格在算法 L 中变成完 
全满的，而不显著地减慢这个方法，除非当这个表真正地溢出了：简单地校验〗<0 

是否发生两次！这项技巧不适用于算法 D 。] 

16. 否：0总导致 SUCCESS , 而无论它已经插入与否，而且 SUCCESS 在不同的时间 

以不同的 i 值出现。 

17. 然后第二个探查将总是对于位置0进行。 

18. (31) 中的代码比 （30) 多花费大约 3( A - S 1) 单位，它节省了 乘（26)、 
(27) 和（28)、(29)之间的差。对于一次成功的查找，仅当表是94%以上满时 （31) 才 

是有利的，而且它决不节省多于大约 + w 的时间。对于一次不成功的查找，当这个 

表是髙于71%满时， （31) 是有利的。 

20.我们要证明 
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^ j (modulo 2 m 


和 1<：j <： k^2 m 


意味着 j = 6。我们发现 - 1) = ^ (k - 1)( modulo 2 w + 1 ) 意味着 （A - j)(k + j - 
l )^0 o 如果 6 是奇数，则 k + j - l 必须是 2 m + 1 的一个倍数，但这是不可能的， 

因为2<々+厂 1<2 m + 1 -2。 因此々是偶数，所以々+厂1是奇数，所以 k-j 

是 K + 1 的一个倍数，所以 k= Jo [反之，如果 M 不是2的一个乘幂，则这个探查序 
列无效。] 

探查序列有第二次堆积，而且它使程序 D 的运行时间（如同在 （30) 中修改的那 

样）增加大约士 （ C -1) - (A _ S 1) 单位，因为现在是可以忽略的。 

在这个表达到大约60%满以前，这是一项小的改进。 

21.如果 JV 被减少，则算法 D 可能失误，因为它可能达到一种没有可用空间因 
而无限地循环的状态。另一方面，如果 JV 未被减少，则当仍然有空间时，算法 D 可 
以标志溢岀。后一选择的弊病较少，因为重新散列可用来除去被删去的单元。（注 
意在这种情况下算法 D 将使 JV 增值，而且仅当插入一项到一个以前的空位置时才 
作溢岀判断，因为 JV 表示非空的位置数。）我们也可以有两个计数器。 

22 .假设位置 j _ 1 ，j - 2 ,…， j — k 被占用，而且 j - A - 1为空 （modulo M ) 。则 

被插入之前先探查位置 ； 并发现该位置已被占用的那些键码，恰恰是在位置 j -1 到 
j ~ k 之间的那些键码，这些键码的散列地址不处于 j - 1 M j ~ k 之间；这些有问题 
的键码以插入的次序岀现。算法 R 把第一个这样的键码移动到位置 ； 去，并在一个 

较小的有问题位置的范围内重复这个过程，直到不再剩下有问题的键码为止。 

23. J . S . Vitter\J . Algorithms 3 (1982) ，261 〜 275] 设计的接合的拉链的删去方 

案维持查找时间的分布。 

24. P ( P -1)( P -2) P ( P -1) P ( P -1)/( MP ( MP -1)--*( MP -6)) = M " 7 (1 

-(5_21/ M))P —i + OW — 2 ))。一般地 ，一 个散列序列 a x - a N 的概率是（丌#。 1 
H )/( mp)k = m— N + 0 (P — 0,其中~是等于 j 的〜 的个数。 

25. 设第 （JV + 1) 个键码散列到位置 a ; 込是 iVT N 乘使得 A 个位置 a，a - 1，…， 


a ~ k + 1( modulo M ) 被占用和个为空的散列序列数。由这个算法的循环对 
称性，有 a + 1 ，…， a + Z 个被占用和 a + Z + 1个空的这种序列的数目是 g ( M ， N , t 
+々 ） 。 


26. 2)/(3,2)/(5,4)/(2, 1)=2 2 3 5 5 4 7 = 4252500 c 

27. 遵循提示 
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在第一个和中，以 n - A 代替 I 而且应用 Abel 公式； 在第二个和中，以 A + 1代替々， 
现在 


g ( M ， N ， k ) 


N 



(k 



1) 


k-i 


(M - k 


1) 


N-k-l 


(M — N — 1) 


而且当是 




N 




M 


1 时有0/0 = 1，而且 



= 2 t 2 ) g(M y N y k ) 

k >0 ^ / ' 


2 


( S (^ 



l ) g ( M ， N ， k ) 






是 >0 


k>0 


l ) 2 g ( M , N , k )) 


第一个和是 M N SP , 



，而第二个是 5( N ,1, M -1) 


m n 



2NM n 


—1 



3 N(N 


1 )M 



-2 


+ 


M N Q 八 M ， N ) 


[关于类似于 s ( n ： y ) 的和的进 


步研究，见 J . 


Riordan ^Combinatorial Identities (New York : Wiley ， 1968) ， 18 〜 23 


28 •设 t{n , x y y ) 


2 


k>0 


n 


k 


X + k) 


是 + 2 


iy - k) n 


~ k-1 


(y - w ); 然后如同在习 


题 27 中那样，我们求得 t { n , x , y ) = xs { n , x , y ) + nt(n ~ 1 



l , y - l ), t ( N y l 


M — 



(3 Q 3 ( M ， N ) — 2 Q 2 ( M ， N )) 


于是 S U 



P k 


M 


N 


s 



U + i) 3 + 




2 


U + l) 2 + 





(k 



l )) g ( M , N , k ) 


Q ,( M , N ) 


2 





Q 2 ( M , N ) 





2 


Qi(M ， N) + 


-4 2 





减去 （ C ;) 2 给出方差，它近似地等于 -^(1 ~ a ) _4 - y (1 - a ) 3 


标准差通常大于 均值; 例如，当 a = .9 时，均值是 50.5 而标准差是音 


〜 82.7 。 

29 . 设 M = m + 1， N = n ; 安全的停车序列恰是那样的序列，其中当应用算法 L 
于散列序列 （ M 时，位置 0 是空的。因此答案是 f(m + l,n) = 

(m + l)"-n(m + ir — 、 [ 这个停车问题是由 A. G. Konheim 和 B. Weiss 开始研究 
的，见 SJAMJ. Applied Matii. 14 (1966) ， 1266 〜 1274。 ] 

30. 显然，如果小汽车都停下了，则它们定义了这样一个排列。反之，如果存在 

P\P2 … Pn ，设 QlQ2^' Qn 是逆排列 （ = 7 当且仅当岛 = 0 ，且设 ^ 是等于 Z ‘ 的〜 的 
个数。如果我们可以证明 b n ^ ： l , b n -i + b n ^2 ，等等；等价地 bi^l , bi + 等 

等，则每一辆小汽车都能 停下； 但这显然是真的，因为々个元素， … ， a % 全都 

[ 设是％的 “ 左影响 ” ，即当且仅当 q J -i<q J ,-,q J - k - 1 <q J 且 J 6 *q] — k 
> %• 时 r] 二 k 。 在支配一个给定的醒来序列的所有排列 p]/" p n 当中，“立即 
停车 ” 算法求得最小者（在字典编辑次序下）。 Konheim 和 Weiss 发现，导致一个给 

定排列 prp n 的醒来序列数目是值得注意的是，取遍所有排列 gr ••〜，这 

些乘积之和是 U + l)" _1 。] 

31. 可能有许多有趣的联系，而且下列两个是作者特别喜爱的 [ 也参见 Foata 和 
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Riordan f AEquat . Math . 10 (1974) ， 10 〜 22]: 

a ) 在上述答案的记号下，当且仅当（〜，心，…^ ，0) 是在前根次序下树节点次 

数的一个正确序列时，计数，•••，&对应于一个完全的停车序列。（对照 2.3. 3 

- （9) 它画出了后根次序。）每株这样的树都对应于|0,…，72丨上72 ! ! •••/??„! 株 

不同的带标号的自由树，因为我们能让0作为根的标号，而且对于 A = 1，2,…，72,我 
们可以逐次地由剩下未使用的标号中以 （ ~ +…+ ) ! /~ ! (~ + 1 +…+ 6„)!种 

方式选择在前根次序下第 A 个节点的儿子的标号，以从左到右递增的次序附加诸标 
号。而且，每一个这样的计数序列，都对应于 n ! Mi ! - b n \ 个醒来序列。 

b) Dominique Foata 已经给出下列别致的一一对应关系：设 < 2 广*< 2 „是安全停车 
序列，它总在空位7处停放车％。对于当 a 3 = 1时从 j 到0画一条边，否 
则从 j 到画一条边，就构造出了 |0，1，…，72丨上的一株带标号的自由树。（把这 

i 

株树的节点想成是汽车，汽车7被连接到另一辆车上，该车恰恰停在妻子7醒来处 
前面的位置上）。 

例如，由 Foata 的规则，醒来时间序列314159265导致自由树。 

2 7 

0 


5 8 

反之，假定箭头从根0处出发，而且在每一步骤都选择最小的“源”，通过拓朴排 
序可从树得到停车序列。从这个序列，可以重新构造 

C) 首先通过命 节点々 的父节点是在排列••〜中跟随 A 的 >々的头一个元 

素，可构造一株辅助 的树； 如果没有这样一个元素，命父节点为0。然后以前根次 
序，如下述进行，制作辅助树的一个副本并且重新标号新树的非0节点 ：如果 在辅助 
树中当前的节点的标号是 A ，把它当前的标号同在它的子树中当前为第 1 + Pk - a k 

最小的标号交换，例如 



辅助的树 



最后的树 

6 



为颠倒这个过程，我们可以通过以前根次序进行把每个节点的标号同在它的子 
树中当前最大的标号加以交换。 

构造 ( a ) 和 （ b ) 是密切相关的，但构造 （ c ) 十分不同。它有这样有趣的性质，即从 
它们中意的位置开始车的位移之和等于树中反序个数一即标号对 a >6的个数，其 

中 a 是6的一个祖先。 G . Kreweras [Periodica Math . Hung . 11 (1980) ， 309 〜 320] 首 

先发现了停车序列和树的反序之间的这一关系。树的反序同连通图密切相关这一 
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事实 [Mallows 和 Riordan ， Bu ". Amer . Math . Soc . 74 (1968) ， 92 〜 94] 现在使得有可 

能推导出取遍所有停车序列的之和，其中 =(〜 -aj +…+ ( 久- 

S ) 等于在标号顶点 jO ，1，…，^丨上有 77 +々条边的连通图的总数。[参见 J anson , 
Luczak，Knuth 和 Pit tel , .Random Structures Alg . 4 (1993 )，233 〜 358 的论文中的等 

式(2.11)，（3.5)和（8.13)。] 

32.设 


s -= 



k mod M 




1 ) 


那么，根据 Svante J anson 的观察，我们有 c ] = ( s k 


• S ; ) ，这个量是有意义的， 


S * lim ^ oo ^= - °°。这个解可以通过在 C'o = 0 的假定基础上定义 Cm -^ Cm -2 


而找到；然后，如果结果表明 c Q 大于0,则只需重新定义 c M _ i ， c M _ 2 ，…，直到不再作 
进一步的改变为止。 


33.各个概率不是独立的，因为条件 &◦ + ~ +…+ b M — 1 = N 未考虑在内；这个 
推导允许2匕有任何给定的非负值的概率为非0。等式 (46) 不是严格地正 确的； 例 
如，它们意味着对于所有的 k , q k 为正，这同 c ; 决不超过 N -1 的事实矛盾。 

Gaston Gonnet 和 Ian MunroL /. Algorithms 5 (1984),451 _ 470] 已经找到了从 

导致 （51) 的论证出发，通过引进对于一个序列 〈 A _〉 的泊 松变换，来 导出精确结果 
的一个有趣的方法。我们有 e — ⑽当且仅当 A _ = 

2 kdk n ~! 饥 k 。 


34.( a ) 有种方式来选择 7 的集合 使得七 有一个特定的值，而且有 （M 
1广 〃种 方式来赋值给其它的 a 。 因此 


P N k = O — l ) N - k lM N 

( b ) (50) 中戶以之 ） = B ( 之 ）。 

( c ) 考虑为找岀所有键码的探查总数，不计算取图38中表列头表内指针的次 


数，如果使用这样的表的话。长度为 A 的一个表列对总和数贡献了 

Cn = MYj[ k \ ^PnJN = (M/iV) (士 P" N (1) + P N (1) 

( d ) 在情况 （ f ) 中长度为々的一个表列 要求々 次探查（不计取表头），而在情况 
( ii ) 中，它要求々+ 于是在情况 ( ii )， 我们得到 c N =^(k + ^0 ) P N k ^ K ⑴+ 

P N (0) = NlM + U - llM) N 〜 a + e —' 而情况 （ i ) 简单地有 c n = NIM = a 。 公式 

mc n = M - N + NC n 适用于情况 （ iii ) ，因为 M - N 个散列地址将发现一个空表位 
置，而 iV 将引起去查找某个表列的 结尾； 这就得到（18)。 
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35. (i) s(l + y^-(^ + l) _1 )P^ = l + ^/(2M) -M(l- (1-1 /M) n + 1 /(N 

+ 1)^1 + ya - (1 ~ e~ a )la 0 (ii) 在 （ i) 的结果中加上 2= (1 — l/M) N 〜 

（ iii) 假定当一次不成功的查找在长度为々的一个表列的第 7 个元素处开始， 

给定的键码相对于其它6个元素有随机次序，所以预期的查找长度是（厂1 + 2+… 
+ (々 + 1— j ) + (々 + l _ j ))/(々 + l )。 现在对 j 求和给出 AfCjv ― Af - N + M 2 ( 々 3 

+ 9k 2 + 2k) P Nk l(6k + 6) = M — N + M (备 N(N — 1)1 M 2 + 寻 N/M — 1 + (Ml (N + 


1))(1 —(1 —1/M) N + 1 )); 因此 CT n 〜 臺 a + (1 — 

36. ( i ) NlM - NlM 2 0 ( ii ) 2 U 々 0 + k 、 2 P m = I ： U , 0 + k 2 ) P Nk = P N (0) + 
P^W + PnWo 减去 （ C n ) 2 给出答案， BP ( M - l ) iV / M 2 +( l - l / M ) N ( l -2 iV/M 

- ( l - llM) N )^a + e ~ a ( l -2 a - e ~ a Xl - e~ l - e — 2 = 0.4968。 [对于数据结构 

( iii ) ，将需要像在习题 37 中那样一个更复杂的分析。] 

37, 设 S N 是 （ C N - I ) 2 的平均值，考虑散列序列的 M n N 种选择并认为诸键码 

是同样可能的 。则 





1 ) 


N~k 


2 


MN(N 




1) M N — 2 


方差是 S iV -(( N - l )/2 M ) 2 =( N - l)(N + 6 M -5)/12 M 2 ^ya + ^a 2 o 

关于在这里计算的总方差和两个其它的方差思想之间有趣的关系，参见 
CM a th . §8.5。这两个方差是平均探查次数（取遍所有存在的表项）的方差（取遍随 
机散列表），和探查次数（取遍所有存在的项）的方差的平均（取遍随机散列表）。总 
方差总是其它两者之和。而在这个情况下探查的平均数的方差是 （M - 1)( N -1)/ 
(2 M 2 N ) 0 

38.由等式 6. 2. 2-(5) 和 6. 2. 2-(6)，在不成功的情况下平均探查次数为 
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SP M (2i^ + 1 - 2 + ‘ ），在成功的情况下为 （ M/N)2P m 々（ 2(1 + 1M) 戌 - 3 )。这 
些和分别等于 2/(N) +2M(1 - (1 - 1/M) n+1 /(N + 1) + (1 - llM) N -2 和 2(M/ 

N )/( N ) + 2 /(N — l ) + 2 M(l — (1-1/ M ) n )/ NU * f ( N ) = XP Nk H k 。 习题 
5.2.1-40 告诉我们当 N = dVT ， M — ⑺时 f ( N ) = ln a + 7 + E ^ a ) + 0 

[树散列首先是由 P . F . Windley 提出的，参见 Comp . 3 (1960)，84 〜 88。在上 
一段中的分析表明树散列不比简单的拉链好到足以证明额外的链接字段的正 确性; 

表列无论如何总是 短的； 而且当 M 很小时，它不比纯粹树查找好到足以认为散列时 
间合理。] 

39.( 对算法 C 的分析的这一方法是由 J . S . Vitter 提出的。）当时，我们有 

c N+i (k) = (M ~ k)c N (k) + (k _ 1) c N (k - 1) ，而且 S 々 c N (々） = NM n 。因此 


S]v+i 



2 it )((M - k)c N (k) 

k>2 



(k - 1)C N (k 



(M 



2 ) 


k>i 


k 

2 



k )c N (k) 





(M + 2) S n + NM n 

因此 

S N 二 （N - 1) M N - 1 + (N - 2) M n ~ 2 (M + 2) + … + M(M + 2) N — 2 = 

j ( M(M + 2 ) n - M N+1 - 2 NM n ) 0 

考虑在不成功的查找中探查的总数，对 / i ( K ) 的所有 M 个值 求和； 长度为々的 
每个表列对总和贡献々+ ‘+匕)，因此 M N +1 C N = M N + 1 + S N 。 


40 .像习题39中的那样定义％，但以^ 1 ) 来代替0。我们求出％ + i = 

(]^ + 3)%+ S n + NM n ，因此 L/ ]V = ^( M ] V ( M -6 iV ) -9 M(M + 2 ) n + 8 M(M + 

3) N )。 方差为 2 U N / M N+1 + C N — ( C N ) 2 ，对于 iV = aM ， M — ⑺，它趋于 

1 1 2 + / 1 5 \ 4 3 a 1 4 a 

144~12 a ~J a + [j a -j) e 

当 a = l 时，这大约是 4. 50,所以标准差大约以 2.12 为界。 

41.设是在表格的“高”端被占用单元的块区的平均长度。这个块区的长度 

为 k 的概率，其中是具如下性质的散列序列 （35) 的 

个数，它使得在算法 C 作用下，前 iV - A 个和 最后々 个单元为已占用的，并且使得子 
序列1，2, …， iV - A 以递增次序出现。因此 

M n V n =2^ A ] y 々 （M - 1 - k ^ = M N+l - 2々 （M - k ) A Nk (M - 1 - k = 
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M N+l - (M - N )2^4 n ,( M - k )^ = M n+1 - (M - N)(M + 1 ) N 
现在 T n = ( N / M ) (1 + V N - T 0 - T N — i ) ，因为 T 0 + … + T N —! 是在此之前 JR 
减值的平均次数，且 N / M 是在当前的步骤减值的概率。这个递推式的解是 T n = 

( N / M)(l + llM ) N 。 (这样一个简单的公式应该有一个更简单的证明！） 

42. S 1 N 是以 A = 0被插人的项数除以 N 。 

43. 设 N ^ iVT 和 M = pM ’， 并设 e -A + 2 = 1/04= 则若 々《 A ， 就有 C N 义 

1 + h 和 C^p + e — ' 若 0A ， 则 C N ^^(e 2 ^ 2A -l-2 / o + 2A)(3-2/ i 5 + 2A) + 

j(p + 2 X - X 2 lp)m -l)(3-2/^ + 2A)-y(^-A) 0 对于 

a = 1，当#〜 .853 时，我们得到最小的 C N 〜 1.69; 当#〜 .782 时岀现最小的 

1.79。对于一个宽范围的 a ， 设置 .86 给岀近乎最优的查找性能。所以值得把 
头一个冲突放在不同散列地址发生冲突的一个区域中，尽管较小范围的散列地址将 
引起更多的冲突岀现，这些结果是由 Jeffrey S . Vitter,/ACM 30 ( 1983)，231〜258 
给岀的。 

44^. (下列硬算的方法是作者在1972年找到 的解； 由 M . S . Paterson 给岀的一个 

更漂亮的解由 Greene 和 Knuth 在 Mathematics for the Analysis of Algorithms 

(Birkhauser Boston ，1980) §3.4 中作了说明。 Paterson 还发现了简化本节中若干其 
它分析的重要方法。） 

从左到右，以1到 m 给阵列位置编号。考虑同等可能地具有々个步骤”和 

n ~ k 个 “ g 步骤”的所有 f = j 个操作序列的集合，设 g ( m，n + 1，々， r ) 是^ j 乘上前 

r - l 个位置变成已占用的和第 r 个保持为空的概率。于是 

乘以下述的概率取遍所有配置 

1 < q < …< Z ; (Ci ， … ， CH_ 々 ） ，2 < c, < m 

之和 ：所述 概率是 当第七 个操作是一个 p 步骤，而剩下的 z - i - 々个操作是分别以 
选择位置^，…， c z _ 1 _ / ^开始的诸 g 步骤时，第一个空位置是 r 的概率。通过附加进 
一步的条件，即给定 \( b '<〜< b k < r m a ] 个操作占用位置~，而后对所有的配置 
求和，我们得到递推式 


g(m ,1 ,k + 1 ，厂） 


▽ {I - b - l)\ {m - r)\ ( 7 . X / ; 

^ (Z - r)! (m - b)\ {m - 1 + D 公（撕，心々，心 ） 

6 < r 

l«a 


g(m,L,0,r) = {[I)]] U m , r)! (^ - l + D(Pz + P z )) 

其中 = ( m/( m — 1 ) ) z 1 。 令 G( m ， Z ， 々 ） == 2/ = i( m + 1 — r )g( m ， Z ， 々 ， r ) ， 由此 
得岀， 
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G(m , l ,k + 1) 



G( m ， Z ， 0) 


77Z — Z + 1 〆 to \ 

-+ Pi) 

m — l + Z 

对于所述问题的答案是 m - + 1，々），它（在实施了某些技巧之 

后）等于 m — (( m ~ n)/(m — n + l ))( Q n + mR + pSR ) ，其中 


Qj = Pj+ii ， 



^=° XX =0 (i — pi( m + 1 - j )) 


当 p = 1/m 时，对于所有的 j ， Q 7 = l 。 设 + ，我们求得 In 只 

=—(H w - H w (i- a )) p + 0(/? 2 ); 因此只 =1 + i^ _1 ln(l - a) + 0(w — 2 ) ;而且类似 

±tfe S = azv + 0(1) o 于是答案是 （1 - a)— 1 ~ 1- a - ln(l - a) + 0( w ~ 1 ) o 

注 意：较 简单的问题 “ 以概率 f 占用最左边，否则占用任何随机选定的空位置”， 
通过在上边的公式中取 P, = l 即可获得解决，而且答案是 m-(m + l)(m-n)Rl 

(m-72 + lh 为了得到有第二次堆积的随机探查的 C N ，置 ” = iV，m = M ， 并在上 
边的答案中加 1 。 

45. 是的。见 L.Guibas，JACM 25 (1978) ， 544 〜 555 。 

46. 对于所有的 x 和非负整数 n 通过规则 

x + n + l) n 

对于々 >0 定义数 71 。 置 x = - 1 ， _ 2 ，… 72 - 1 意味着 

L L 々」」 

7^11 = 对于 0 <&< 打； 

L L 々」」 ; / 

b mm ， _ 

然后置 x = 0 意味着对于所有 A>n ， 我们可以取 ^ =0 ,所以定义方程的两边 

L L 々」」 



是在 n + i 个点上相等的 a ； 的 n 次多项式，由此得出数 u 有所述的性质。 

L L 々」」 

设 /( iV ， r ) 是保持头 r 个为已占用的和下一个为空的散列序列的数 
目。有种占用单元的型式，而且每一种型式出现的次数就等于序列 

\ N - r I 

a 、 … ， l < a ; 的数目，这种序列包含数 r + 1, r + 2 , ••• , N 的每一个至少一 
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York Wiley , 1968),228 〜 229 。 

47 . 算法 L 的分析几乎可逐字适用！任何带有循环对称性的探查序列，而且它 
仅仅勘察同从前考察过的那些位置相邻的位置，都将有相同的特性。 

48. C;=l + /? + p 2 +…，其中/? = NIM 是一个随机位置被填满的概率；因此 

C N = M/(M — iV ), 而且 c N = N - l ^： Q 1 c / k = N ~ 1 M ( H m - H M - N ) 0 这些值近似 

地等于一致探查时的那些值，但稍微髙些，因为在相同的位置有多次探查的机会。 
其实对于 4 = iV < M <16, 线性探查是更好的！ 

实际上，我们将不使用无穷多个散列函数，某些其它的方案，像线性探查，将最 
终地被用作最后的手段。这个方法比正文中描述的那些方法低劣，但是它有着历史 
上的重要性，因为它提示了导致算法 D 的 Morris 方法。见 CACM 6 (1963),101，其 
中 M . D . Mcllroy 把这个思想归功于 V . A . Vyssotsky ; 同样的技术也由 A . W . Holt 早 

在1956年就发现了，他成功地把它使用于 UNIVAC 的 CPX 系统中。 

49 . C N - 1= H k>b {k — b) P Nk k y b (k - b)e~ ab (ab) k I k ! =abt b (a 、。 法 •• — ^ 

般说来，如果 PU ) = 6 + 1^2： + …是任何概率的生成函数，则 



而且， 
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M 

2 N 


y^j (k(k 


k>b 


1) — 2k ( b — 1) b(b — 1) ) P^ k ^ 



2 


e 


— ba 


{ba) b b\^ x {b + ba 


一 26 + 2 + 


{ ba 1 - 2 a(b - 1) + b - l ) R ( a , b )) 

[对于具有拉链的成功查找的分析，首先是由 W . P . Heising 于1957年进行的。 
(57) 和 （58) 中的简单表达式是由 J . A . Van der Pool 于1971年建 立的； 他也考虑了 
怎样把一个表示存储空间和存取次数的组合代价的函数极小化。因为5^ >6 (々_ 

b ) 2 P Nk = (2 NlM )( C N — l ) - ( C ^- 1)，我们可以确定 Ck 和每个桶溢出次数的方 

差。溢出总数的方差可以通过把 M 乘以在一个桶中的方差来逼近，但这实际上太 
高了，因为总的记录数已被限制为 iV 。 真正的方差可以像在习题37中那样来求得。 

也请参见 3.3.1 C 节中的 X 平方测试的推导。] 

50 . 而且其次 Q 0 ( M , iV - l )= ( M / N )( Q 0 ( M , iV ) - 1)。 一 般地， rQ r ( M , N ) = 

MQ r — 2 ( M ， N ) - ( M - iV - r ) Q r _ 1 ( M , N ) = M ( Q r _ 1 ( M,iV + l )- Q r _ 1 ( M , 
N ))； Q r ( M , N - l ) = ( M / iV )( Q r ( M , iV ) - Q r — “ A ^ N ))。 

51. R (a , n ) = a 1 { n \ e an ( an ) — n - Qo(an , n )) 。 

52 . 参见等式 1.2.11.3- (9) 和习题 3.1-14。 

53. 由等式 1.2.11.3- (8)，《(⑽）+ 1， ㈣ ）；因此由提示的习 

题可知 = a )~ 3 n~ l + 0{ n ~ 2 ) 0 [这个渐近公式可以更直 

接地通过 (43) 的方法得到，如果注意中 V 的系数是 

1 _ (々 2 2卜- 1 + 0( k 4 n ~ 2 ) 

的话。事实上，由等式 1.2.9-(28)， W 的系数是 

S (- V r n — 

r >0 

54•使用提示和等式 1.2.6-(53) 和 1.2.6-(49) —起，我们有 



2 ^ ( « ) = 

6>1 



a 


m 


m 


>1 


m 



l)(m) 


m 



k 






由于 U + 1)! i n ( a )= e ~ na ( an ) n F (2 ;n +2; an),JA Kummer 著名的超几何恒 

等式 e ~ z F ( a ; b ; z ) = F ( b ~ a ; b ; - z ) 可得出提示；见 Crelle 15( 1836) ，39〜83，127 
〜172,等式26.4。 

55.如果 B ( z ) C ( z ) = 2 siz 1 ，则我们有 c 0 = + … + s b , ci = s b + i ， c 2 — s b + 2 , 

…；因此 B ( z ) C ( z ) = z b C ( z ) + Q ( z ) o 现在 P ( z ) = z b 有 b -1 个根 g ; 且 | qj \ < 

1，如同对 e ^- 1 )= ⑴—、，⑴二 e 2 •的解那样确定。为了求解 e a( ^ 1} =⑴―、，设 
《=叫和 2 =伽^—%使得 t = ze t 0 由拉格朗日公式我们得到 


1 — g 




r 


r 


^0 71 ^ 



^n — r 一 1 n n 

n co a 


7 — na 

e 


r 


n 


r 
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i +2 d 

r^l m^O 




1 \ 72 - r n m - l 

1) co n 


由阿贝尔极限定理，从单位圆内命 M — i ， 这可以重新安排成 



现在以 W 代替0；，而且对于 1< J <6 求和，产生 




1) 


n n + \ 


CO 



m ~1 






\ ' m 

Zj a 

m ^2 






n^l 








l ) nb ~ l { nb) m ~ l 



在使用习题 54 的提示稍做修改之后，即得所希望的结果。 

这项分析，可应用于广泛的问题中，它是由 N.T.J. Bailey J. Roy. Stat. Soc. B16 
(1954) ， 80 〜 87; M. Tainiter JACM 10 (1963) ， 307 〜 315; A. G. Konheim 和 B . Meis- 
terJACM 19 (1972) ， 92 〜 108 开始进行的。 

56 .参见 Blake 和 Konheim , JACM 24 (1977) ， 591 〜 606。 Alfredo Viola 和 
Patricio Poblete [Algorithmica 2 1 (1998) ， 37 〜 71 ] 已经证明 




一 ^j~i _ 


i i ^ i , i 

V 86 3b b fr{ (1 - TCe 2 ^ 7 ^ 1 )) 24 V 2b 3 M 

其中： T 是等式 2.3.4.4-(30) 的树函数。 



58. 01234和0241 3,加11111 mod 5的附加的移位，每 个有& 的概率 


0 


类似地，对于 M = 6, 我们需要30个排列，而且存在一个以 ‘ X 0 1 2 3 4 5, ^xo 1 

ZU OU 

3254， ^ xQ 243 1 5, ^ x 02345 1, $><034125 开始的解。对于 M = 7, 


我们需要49个排列，而且通过盖 X 0 1 2 3 4 5 6,盖 X 015324 6, ^xo 2 4 3 5 

16, j |^ x 0 2 6 3 1 4 5, ^xo 3 6 1 4 2 5, — X 0326415, 3 1 5 4 2 6 

生成的一个解。 

59. 任何排列不能有大于 

1/( M ) 

的概率，所以必然至少有 

( lM /2 J ) = ex P ( M l n 2 + 0 (log M )) 

个排列有非0的概率。 

60 . Ajtai ， Koml 6 s 和 Szemeredi 已经得到预备性的结果， information Processing 
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Letters 1 (1978) ,270-273 0 

62 . 参见在 AMM 81 (1974) ， 323 〜 343 中的讨论，其中对于 M<9 显示了最好 
的循环散列序列。 

63. 由习题 3.3.2-8 ， MH m; 标准差是〜 ttM/V ^。 

64. 移动的平均数等于 |(iV-l)/M+|~(iV-l)(iV-2)/M 2 + |~(iV-l)(iV-2) 


( iV -3)/ M 3 + …〜:——丄 In ： p ^-。 [在 ConipJ . 17 (1974) ，139〜140上解决了 

丄一 a a 1 — a 

一个等阶的问题。] 

65. 诸键码可以被存储在一个顺序分配的独立的表格中（假定，如果有删去的 
话，它是按 LIFO 方式进行 的）。 散列表的项指向这个“名字 表”； 例如 TABLE [ f ] 可以 
有形式 

L ? KEY [ i ] 

其中 L 是存储在单元 KEY [ f ]， KEY [ i ] + 1，…处的键码中的字数。 

散列表剩下的项可以以若干方式中的任何一种方式来使用： （ a ) 作为算法 C 中 
的一个链接。 （ b ) 作为同键码相关联的信息的一部分，或者 （ c ) 作为“第二个散列 
码”。后一个思想，是由 Robert Morris 提出的，有时可加速一个查找[对于某函数 / i 2 

(幻，仅当 / i 2 ( K ) 匹配它的第二个散列码时，我们才仔细地考察 KEY [ f ] 中的键码]。 

66. 是；而且诸记录的安排是惟一的；每一次不成功的查找的平均探查数被减少 
成 C N _ i ，尽管当插入第 iV 项时它保留 C N 。 这种重要的技术称为有 序散列。见 

Comp .] . 17 (1974) ， 135 〜 142。 D . E . Knuth , Literate Programming (1992) , 144 〜 
149,216〜217。 

67. ( a ) 如果在 (44) 中(: 7 = 0，假定 j - l >〜> j ，通过把诸 a 排 
成非递增的“循环次序”得到一个最优的安排。 （ b ) 在步骤 L 2 和 L 3 之间，交换手中 

的记录与 TABLEfj ]， 如果后者比前者更接近于家的话。[被 Celis ， Larson 和 Munro 

在 FOCS 26 (1985) ，281〜288中称做 “Robin Hood 散列”的这个算法，等价于有序散 
列的一个变形。] ( c ) 令 / i ( m ， rz ， 幻是使 c 0 < d 的散列序列的个数。可以证明 
[ Comp . J . 17 (1974) , n , d ) ~ h (m , n , d ~ 1)) M 是在所有 M N 个散列 

序列当中位移 d >0 出现的总数，而且我们可以写+ d ~ k ) n ~ k { k - 

d ) k o 现在使用习题28和50的方法经精心计算证明的平均值是，当 N=aM 
时 

N 

M x ~ N Y ] d 2 ( h ( M,N , d ) - h ( M , N,d - 1)) = 

d=l 




Qo(M ， N) 
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M 


2(1 - 


a 


6(1- a ) + f + f + ^ 



0 ( 1 ) 


无需修改（参见习题 28)， EEW 等于 


y ( Q 2 ( M , N ) - Q l ( M , N )) - y ( Q 0 ( M , N ) — 1) + f 


M 


a 


3(1 - a ) 


3(1 




2(1 — a) + Y + 6 



0 ( 1 ) 


如果所有记录都有近似地相同的位移 A 而且如果成功的查找比不成功的查找 


更普遍得多，则在位置 A 


/ 


h ( K ) 



d 处开始是有利的。然后探查 /i 


/ 


l,h 


/ 



l，/l 


/ 


等等。 


V . Poblete , A . Viola 和 J . I . Munro 已经证明 [Raudom Structures and 


Algorithms 10 (1997)，221 


255] 通过使用一个称做“后进先服务”的散列，可以使 


2 <几乎同在 Robin Hood 方法中一样小。在“后进先服务”散列中，每个新插入的 

键码被放置在它的家的位置当中，所有其它键码移开一步直到找到一个空位为止。 
Robin Hood 和后进先服务技术既适用于线性探查，也适用于双倍散列，但是相对于 

双倍探查来说，探查的减少不能补偿对于每次探查所增加的时间，除非表是极其满 

的 o (参见 Poblete 和 Munro , J . Algorithms 10 (1989) ,228〜248。) 

68.使用在习题31的答案中提到的停车问题和连通图问题之间的联系，可以证 


明 （ + 




+ d N ) 2 的平均值等于 


N 

12 


((M - N ) 



(N 



3 )(M - N ) 



(8 N 



1 )(M — N ) + 5 N 



4 N - 1 - 


((M - N ) 


4 (M - N ) 



((6 N + 3 )(M - N ) + 8 N ) Q 0 ( M，N 


为了得到在一次成功的查找中探查的平均次数的方差，以 iV 2 除和减去 + ( Q q ( M ， 
# — 1) — 1) 2 ; 这近似于^((1 + 2«)/(11) 4 -1)]\/+0(]\/- 2 )。 （参见 P . Flajolet , 

P. V. Poblete 以及 A. Viola, Algorithmica 22 (1998) ， 490 〜 515; D. E. Knuth ， A!g*o- 

rithmica 22 (1998) ， 561 〜 568 。这里所计算的方差应同总方差加以区别，总方差是 
£24心-+(0。（]^，]\/-1)-1) 2 ; 参见习题37和67的答案。） 

69. 设 ％ =九 + 九 + 1 + …，于是不等式 ％> max (0 ，l - U - 1 )(M - / z )/ M ) 给 
岀对于 C' N 二 的一个下限。 

70. 由 Lueker 和 Molodowitch[Combinatorics 13 (1993) ，83〜 96] 给岀的一^个特 

别简单的证明确立了一个类似的结果但在 O 的上限中有一个额外的因子 
(log M ) 2 : 通过使用更准确的概率估计，以类似的方式可得岀所述结果。 A . Siegel 
和 J . P . Schmidt 已经证明，事实上，在双倍散列中探查的预期次数是 1/(1 - «) + 

0(l/M )， 其中 a==iV/M。[Computer Science Tech . Report 687 (New York：Courant 

研究所， 1995)。] 

72. [/. Comp . Syst . Sci . 18 ( 1979) ， 143 〜 154 。 ] (a) 给定键码 ，…， 和 K ， 


6.4 节 


%和 K 在同一表列中的概率是，如果 K 关 &，则它 <1/M 。 因此预期的表列大小 
<l + (iV-1)/M 0 

( b ) 假设有 Q 个可能的 字符； 则对于每个\有]1^个可能的选择。随机选择 
每个\等价于从 M QZ 行和 Q z 列的矩阵 H 选择一随机行，并且在列：中有表 

项= ( hi ( xi ) + ''' hi { x t )) mod M 。 在列 K — xi %%% 和 K ' = x ^ … x ; 且 


对于某个 7 ，巧关 < 中，我们有 h ( K ) = (s + h J ( x J ))mod M 和 /i(iT) = 
hj ( x - )) mod M ， 其中 s = 2 ; 巧 /i z () 和 / = 2 i ^ jh { (: c :•) 同 /i ; 无关。 hj ( x 


/ 


s 





/ 


X 


) 的值在 modulo M 之下一致分布；因此不管 s 和/的值如何，我们以 1/ M 的 


概率有 A ( K ) = A ( ir ) 


o 


( c ) 是的，加上一个常数到\(:^)使 A ( x ) 改变一个常数 modulo M 。 

73. ( i ) 当每个键码被当作是二进位的而非字符的一个序列时[它早在1970年 
就由 Alfred L . Zobrist 发明了。他原来的技术报告已在 JCCA J . 13 (1990),69 〜73 

上重新发表]，这是习题 72(c) 的特殊情况。 （ ii) (b) 的证明表明 ，当 &关< 时，只要 
证明 /^( 七 ) 是一致的 modulo M 即可。而且事实上，对于任何给定的 y 和 
y / ,h J (x J ) = y 和 ) = 3 /的概率是 1/M 2 , 因为对于任何给定的 （ y，/) modulo 

素数 M , 同余式 <2内+卜三 y 和七工/ + ~三:/有惟一的解（〜 ， bj ) 。 

当 M 不是素数且户是一个>¥的素数时，如果我们令 hA) = (( + b J ) 

mod p)mod M ， 其中~和 ~ 是随机地选择 mod / •的。 在这种情况下这个族系不是 
十分广泛的，但对于实用目的来说接近于足够用了。不同的键码冲突的概率至多是 

1/ M + r ( M — r)IMp 2 ^!/M + M14p 2 ，其中 r — p mod M 0 


74 .—般地说这个命题为假。例如，假设 M = iV = n 2 , 并考虑具有行以及 
在不同的列中各以不同方式放上 n 个0这样一个矩阵 H 。 在每行中非0元素从左 


到右为 1，2 ,…， N — 


1。这个矩阵是通用的因为在每对的列中有 





n _ 

N 


(^)( n ) 2 = 个 匹配。 但在每行的。的个数是 ##0(1) + 0 (Nl 

M ) 0 

注意： 本习题指岀，当插人一个新键码时，预期的表大小十分不同于预期的冲突 
数。考虑命(: rj ，其中 h 随机选择。这个散列函数族使每个表的 

预期大小为 iV / M ; 但它肯定不是通用的，因为有相同的头字符:^的 iV 个键码的集 

合将导致大小为 iV 的一个表和所有其它空的表。预期的冲突数将是 N ( N - l )/2, 
但对于通用的散列族，这个数至多是 iV ( iV - l )/2 M ， 不论键码的集合如何。 

另一方面，我们可以证明在一个通用的族中，预期的每个表的大小是 0(1) + 


0( iV //^)。 假设在行/^中有 q 个0。于是这行至少包含对相等的元素。当 

\ 
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/ 


每个％等于之时，在 2f =1 0<0/M 的条件下的极大值出现，其中 



75. ( a ) 显然正确，即使 <，…，心恒等于0。 ( b ) 由 72( b ) 的答案，正确。 （ c ) 正 
确。如果 K ， iT 和全都在某个字符位置中不同，则结果显然。否则，说& = 

工 ’] A 4 4。则量〜 ( Xj ) + h k ( x k ) , hjixj ) + h ( < ) 和 h ] { x ]) + 

K ( xi ) 是彼此无关、一致分布的，而且也和这些键码的其它 Z -2 个字符无关。 （ d ) 

假的。考虑有1个二进位字符的情况 M=Z =2。于是所有四个键码以1/4的概率 
散列到相同的位置。 

76. 使用 h ( K ) = ( h 0 ( l ) + + …+ hi ( x t ) )mod M ，其中每个 / i 7 如同在 

习题 73 中那样选择。当长度的一个键码头一次出现时，对于\生成随机系数 

(而且如果愿意，预先计算它的值的阵列）。由于 z 是无限的，因而矩阵 H 是无穷 
的。但是在程序的任何特定的运行中仅仅有限部分是有关的。 

77 . 设 p<2< 6 是在 H 之下两个 32 个二进位键码有相同的映像的概率。当两 
个给定的键码在它们的八个 32 位二进位子键码的七个上一致时，则出现最坏 情况; 

则冲突的概率是 1 - (1 - p) 4 <4p 0 [参见 Wegman 和 Carter, J. Comp. Syst. Sci. 22 

(1981),265 〜 279。] 

6.5 节 

1. 提示中所描述的通路可以这样来加以转化，即把从 - l ， j ) 运行到一个“新 
的最低记录”的值的每个往下的步骤改变成一个往上的步骤。如果做了 C 

个这样的修改，则这条通路在（772, 72 -2〖+2 c ) 处结束，其中 C >0 和 C >2 t - 72;因 

此72 - It + -2k 0 在与被修改的通路相对应的排列中，表列 JB 的最小的 (：个 

元素对应于被修改的诸向下步骤，而表列 A 包含 Z - C 个对应于未修改的诸向下步 
骤。 

当 t = k 时，不难看出这个构造是可 逆的； 因此恰恰构造了 个排列。附带地 

说，按照这个证明，表列 A 和 C 的内容可以以任意的次序出现。 

注 意：我 们已经在习题 2.2.1-4 中以另一种方式计算了这些通路。当々 = Ln /2」 

时这个构造证明了 Sperner 引理， 它指出，不可能有丨 1，2 …， n 丨的个以上的 

子集，使得这些子集中没有 一 ^ 个被包含于另 一 ^ 个当中 。 [Emanuel Sperner ， Math. 
Zeitschrift 27 (1928)，544 〜 548] 。因为，如果我们有这样一个子集的集合，则个 
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排列中的每一个的初始位置上至多可以出现这些子集之一，但每个子集又应出现在 
某个排列中。这里所用的构造是一个更为一般的构造的改头换面的形式。 N . G.de 

Bruijn C . van Ebbenhorst Tengbergen 禾口 D . Kruyswijk[Nieuw Archief voor Wiskunde 

(2)23 (1951)，191 〜 193] 通过这个构造，证明了 Sperner 的引理对多重集合的推广: 
“设 M 是包含有 n 个元素（计算了多重性的） 一 个多重集合。 M 的所有 LW 2」 个元 
素的子多重集合的全体，是使得没有任何子多重集合包含在另一个当中的最大可能 


的这种集合。”例如，当 M = \ a ， a ， b ， b ， c，c \ 时，最大的这样的集合是由七个子多重 

集合 \a ,a ,b \ , ! <2 , <2 , c 1 ，\a ， b，b \ ,\a ,b ,c \ ,\ a , c,c \ , { b ,b , c \ , \ b ,c ,c \ 组成的。 

这将对应于六个属性 A 1 , B 1 , A 2 , B 2 , A 3 , B 3 的七种排列，在这些属性中，所有涉及 
A 7 _ 的询问也涉及技。进一步的评述出现在 C . Greene 和 D . J.Kleitman 的论文 J . 


Combinatorial A20 (1976) ，80〜88中。 

2.令为对一些记录的所有访问的表列，这些记录分别以为 


性的值，并假定 


&011 


是 


个表列 a on ， a ioi ， a iio 之最短者 


h 别以 g ，7，々）为三个属 
则一个极小长度的表列 


是 a GGl a Gll a lll a lGl a lGG a llG a lll a Gll a GlG 。 然而，如果 “on 是空的，而且 a GGl ， a G 10 或 

a 1 Q () 之一也是，则这个长度可以通过删去 a nl 的两个岀现之一来缩短 [CACM 15 


(1972),802-808] 


o 


3. ( a ) 茵香籽和/或蜂蜜，可能同豆蔻和/或香精组合 


o 


⑹无 


o 


4.设九是询问恰恰涉及 z 个二进位位置的概率，且是在一个随机记录中给 
定的 z 个位置全都是1的概率。则答案是减去一个特定的记录是一个“真情 


报”的概率，后者是 


N 


q 


N 


，其中 N 


r 


q 


r 


n 


k 


由容斥原理 


Pt 


S(-d 


. f(n 


j，k , r ) lf ( n ， k ， r ) 


j>0 


其中 /( nj ， r ) 是在一个 n 位字段中，选择 r 个不 同的々 位属性码的可能的数目， 
即 


/(72 ， 是， r ) = 


n 


k 


r 


而且由习题 1.3.3 - 26,如果 g 


r ， 


Pt 


S(-d 


+ / 


n 


/ >o 


+ 


Pt^i = 


(” S ( - l )" 7 ( ’ )/( ， — j ， q)l f( n,k,q) 

注意：上述计 算的胃 一般的形式，首先是由 G . Orosz 和 L . Takacs 进行的，见 
of Documentation 12 (1956) ，231 〜234。均值2队容易证明是 ~ 1, k , 

q 、 lf ( n ， k ， qH 另一个假定，即记录中和询问中的随机属性代码不必是不同的，如 

同在 Harrison 和 Bloom 的技术中那样，可以通过同样的方法来进行分析，并置 /( n ， 是， 
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习题答案 


/ 


r )= 当参数在适当的范围中时，我们有 P t ^( l ~ e ~ krln Y 而且〜 


P 

^ n(l ~ exp ( — kql n)) 


o 


6 . L ( t ) 



N〆 而且 L 2 (0 义 N 2 a — S 则 L ( t )^ N 1 N 2 a ~ t 0 


[因此如果 L x ( t )^ 


7.( a ) L (1) = 3, L (2) = 1 j Q ( b ) L ⑴ = 3 吾 ， L ⑵ = 2 士 ， L (3) = 1 盖。 

[注：诸如 00** —0,01** —1,10** — 2，11 ** — 3这样一个平凡的投影映像有糟 
糕的最坏情况 特性; 但它有一个较好的平均情况，因为由习题得出 L (1) = 3， L (2) 



8 .(&)当 S = S 0 OU Sil 时，我们有 /,(S) =/,(S 0 U SO +/,_ 1 (S 0 ) + /,-i 

(SJ 。 因此是对于使得 2 m — 和 5 0 +5i = 5 的所有外和巧， 
f t (s 0 ,m ~ 1) + f t -i(s 0 ,m ~ l) + - 1) 的极小值。为了证明对于 5 0 = T sj2] 

和& = ^/2」，出现极小值，我们可对 m 使用归纳法，对于 m = l 结果是显然的 ：给定 
77 Z >2，命仏（5)=/, ( s ， m _ l ) 和 h t ( s ) = f t ( s，m - 2、。 于是，由归纳法， ( s 0 ) + 

+ A- 1 G 1 ) 二 Mr s 0 l2 飞 ) + /i z -i(T sj2A) + h t - 1 (ls 0 l2]) + h t - { ([ 5 0 /2l) + 

\ - 2(「（ W 2 l ) + 圮 - 2 ( L 5 0 /2 j ) + h t - x ( r ^ i /21) + / l ，— 2 (「^ l /2 l ) + / l z — 2 ( Lh /2」） ，它 

是 ^o/2l + r 5^21) + g t -1 ([ 5 0 /2] + r 5^21) + 仏 ― JL W2」+ Lh/2 」）。 而且如 

果50>5 1 + 1，我们有「5( ) /21+「5 1 /21<50，除非在 so = 2々 + l 和 si -2 k - \ 的情况 

下。然而，在后一种情况下，备（外）+ ^ - 1 ( 5 0 ) + g t - i ( si )^- h t ( 2 k + 1) + 2 h t - i ( 2 k )^ 
h t (2 k ) + 2 心― i (2々） 0 

(b) 注意，包含在二进记法下的数 0 ， 1 ， … ， s-1 的集合 S 有如下 性质： S Q U S: 
二 So 而且 So 包含「 m/21 个元素。顺便指出，由此得出， / ； (2 m — 'm) = [^](1 + 

z) n (l + 2 z) m ~ n o 


10. ( a ) 必有 j Aw -1) 个三元组，而且 a 必然出现在它们的 + w 个当中^ ( b ) 

因为^是奇数，对于每个 i 有惟一的三 元组丨 A ，％，％丨，所以 S ' 容易证明是一个 

Steiner 三元组系统。在 K ' 中不出现的对偶是1 2：， x 2 I ，丨 * x 2 ， ： V2 U ： V2 ，工 3 丨，丨 13 ， ： V3 I ， 

…，丨； — 丄，3^ — 1 丨 Ay v -\, x v \ ,\ x v , z \ 0 ( d ) 由情况 v - 1 开始，应用操作 v ^ 2 v - 2, 

T ；—2 t ； + 1 即得不具有 3 A +2 形式的所有非负数，因为 6 A + (0，1，3,4)诸情况分别 
地来自较小的情况3々+ (1，0，1，3)。 

顺便指出，“ St einer 三元组系统”实际不应该取 St drier 这个名称，尽管这一名称 
在文献中已打上深深的烙印 Q Steiner 的论著 [CreHe 45 ( 1853 )，181〜182 ] 出现在 

Kirkman 的论著之后好多年，而且 Felix Klein 已经指出 [Vorlesungen iiber die En - 
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twicklung der Math , im 19 ，Jahrhundert 1 ( Springer , 1926), 128 ],Steiner 在他的晚年 

期间，引用了英国一些作者的话，而不提及他们。而且，这个概念已经岀现在 J . 

Plucker 著名的两本书 [System der analytischen Geometrie (1835) ， 283 〜 284 , T heorie 
der algebraischen Curven (1839),245 〜 247] 中 0 

11 . 取 + 1 个对象上的 Steiner 三元组系统。称诸对象之一为％而且以这样 
一个方式来命名其余对象，即包含 z 的三元组是 U , x z , x z ! ;删去这些三元组。 

12 . 对于 <14 ， | 々，（々 + 1)mod 14 ， （是 + 4 )mod 14, (k + 6)mod 14 | ，其中 

(々+7) modl 4 是々的补。[补系统是所谓可 除群区 组设计的特殊情况；参见 Bose , 
Shrikhande 和 Bhattacharya ,Ann . Math . Statistics 24 (1953) ， 167 〜 195 0 ] 

14 .在 々- d 树中删除是最容易的（对根的替换可以在大约 0( N 〃 1M ) 步之内 
求得）。在四叉树中，删除似乎要求重新构造以被删除的节点为根的整棵子树（但平 
均说来这个子树仅含大约 log N 个节点）在邮局树中，删除几乎毫无希望。 

16. 设每一三元组对应于一个码字，其中每个码字恰有三个1的二进位，这些二 
进位标识对应的三元组的元素。如果 u,v ,VU 是不同的码字，^与 W 的叠加至多与 
U 有两个公共的二进位1，因为它与单个的 r 或 W 至多有一位相同。[类似地，从阶 
为 V 的四元组系统我们可以构造 1)/12 个码字，它们中没有一个被包含在任 
何其余三个的叠加当中，等等。] 

17. ( a ) 设对于 Kk < n ， cq = 心，设 q = ( 如果 心 —i = 0则 * 否则 ，c — & = ( 如 

果= 1则 * 否则 b k ) o 则基本查询描述筐&…的内容。[因此 

这个方案是组合散列的一个特殊情况，而且它的平均查询时间匹配习题 8( b ) 中的 
下限。] 

( b ) 设对于 = [二进位々是确定的 h 对于我们可以 
假定 d — k “ 则当确定的二进位全为0时，岀现被考察的极大筐数，而且可以如 

下来计算它：置 x — 1。然后对于 A = ww - 1，…，0，置 （ x ，： y )— (工 ，： y)Mj + ^， 

一 k k 

其中 



最后输岀 x ( 在々= 0之后，它也刚好 等于: y )。 

我们说，如果 + y^x + y ' , Wi{x , y )'>( x / , y ') o 于是如果 （ x ，: y)h 

( x 、/)， 则我们有，对于 现在 

(x , y ) M 2 M J 1 M 0 = (F j+3 x ,F j+ 3 x) 

(x , y ) M 1 M J 1 M 1 = (F j+3 x + F J +2 y 9 F J+2 x + F J + 1 y ) 

(x , y ) M 0 M J 1 M 2 = ( F j+2 x + F J +2 y , F J+2 x + F J +2 y ) 

因此我们有 23 ；> x 0 而且类似地 （ u ) 

，因为 由此得岀，当对于 Kk < n，d — k + d k < 

1 或者当对于 + 时，岀现最坏情况。我们也有 


735 



题答案 


(x ,y)M 0 M\ = (^ +2 ^ + F J+2 y ,F J + l x + F J + l y) 

(x ,y)M\M 0 = (F j + 2 j ： + F J + l y ,F j + 2 x + F J + [ y) 

(x ,y)M 2 M\ = (F j + 2 x , F J + l j：) 

(x ,y)M'M 2 二 (F J + l x + Fjy,F J + l x + Fjy) 

因此，最坏情况要求下列的 筐数： 

2”-％ +3 如果0 <，< 77 [从 

2" F 3 ”— 2 t +3 如果77 <，< 「3 W 21 [从 M \ n - 2 t { M x M 2 y - n M ^ 

如果「3”/21< t <2 t 7 [从 M 2 2 i - 3tl (M l M 2 ) 2?l - t M 0 ] 

[这些结果实质上归功于 W . A . Burkhard,BIT 16 (1976) ， 13〜31 ， 在 J . Comp. Syst . 

ScL 15 (1977)，280〜299上又作了推广；但仏吐1孤(1从到 V " 〜的更复杂 

的映射，如同由 P.Dubost 和 J. - M . Trousse Report STAN — CS - 75 - 511 ( 斯坦福 
大学， 1975) 所建议的那样，这里已作了简化。] 

18. ( a ) 在一起有 2 ”（ m - 〃）个 * ，因此有个数字，且每列有 2” n I m 个数 

字。在每列中的半数的数字必然为0。因此 V - X n \ m 是一个整数，而且每列含 

(2 n - [ nlm) 2 个不匹配。由于每两行至少有一个不匹配，因此我们必定有 2 }1 (2”- 

1) l2<(2 tl - 1 n I m) 2 771 。 

( b ) 考虑在 m - 77个特定的列为0的2” 个 m 个二进位的数。这些中的一半有 

奇校验。在任何未确定的列中有 * 的一行覆盖的奇数和偶数一样多。 

( c ) * 000, * 111，0 * 10，1 * 10,00 * 1，10 * 1,010 * ，110 * 。这一个不像 （13) 

那样一致，因为像 *01 * 这样的查询击中四个行而 * 10 * 仅仅击中两行。注意 （13) 
有循环的对称性。 

( d ) 通过以 * * * * 来代替每个 * ，以头四行的任何一行代替每个0,以及以最 
后四行的任何一行来代替每个1，从 （13) 的每行来建立4 3 个行。（一个类似的构造 
从任何 ABD ( m ， n ) 和 ABDU /， 〆 ） 构造一个 ABDCmm 、?? 〆 ）。 

( e ) 给定一个 ABD (16,9)， 我们可以以这样一种方式在每行中对一个 * 划圈， 
即使得每个列中有同样多的 圆圈。 然后我们可以把每行分成为两行，且以0和1来 
代替被划圈的元素。为了证明这样的划圈是可能的，注意每列的星号可以被任意地 
划分成32个组，每组含7个 星号； 于是512行的每个含7个不同组的星号，而且 
32 X 16 = 512个组，每组岀现于7个不同的行中。定理 7.5.1 E (“ 结婚定理”）现在保 
证一个完全匹配的存在性，且在每行和每组中恰好有一个被划圈的元素。 

参考 文献： R . L. Rivest ， SI COMP 5 ( 1976 ) ， 19 〜 50 ; A . E . Brouwer ， Combi na- 
torics, ^ Hajnal 和 S 6 s 主编 , Colloq Math. Soc. Janos Bolyai 18 (1978) ,173 〜 184 。 对 
于所有>32, Brouwer 继续证明 ABD (2 77，77 ) 存在。当把 （ 13) 同 （ 15) 组合在一起 

时，部分 ( d ) 的方法，也产生 ABD (32,15) 0 

19. 由习题8,有 8- A 个特定二进位的平均数是 2 i 3 / n (8,8)/( D ， 对于 
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6.5 节 


6>0，它有分别的值(32,22，—，琴，旱，警，||，替，1)〜(32,22，14.9,9.9,6.4,4. 

1.2. 6.1.6. 1 ) o 这些值仅仅稍微高于32_的值 （32,20. 7 ,13. 5 ,8. 7 ,5. 7 ,3. 7 ,2. 4, 

1.5. 1 ) o 最坏情况的值是 (32 ,22,18,15,11,8,4,2,1)。 

20. J . A.La Poutre [ Disc . Math . 58 (1986) ,205 〜 208] 证明，当 m > (=) 和 
时 ABD ( m ， rz ) 不可能存在；因此无 ABD ( 16， 6) 存在 。 La Poutre 和 van Lint [ Util . 

Math . 31 (1987),219 〜 225] 证明，没有 ABD (10,5)。 利用习题 18 的方法，从一个 

^0(8,5)或八60(4,3)，我们得到一个^0(8,6);这产生出若干非自同构的解，而 

且附加的 ABD (8,6) 的例子也存在。（除了平凡的 ABD (5,5) 和 ABD (6 ，6)之外），剩 

下的仅有的可能性是，不同于 （15) 的 ABD (8,5)， 而且也许还有一个或更多的 ABD 

(12,6)。 

All right — I m glad we found it out detective fashion ; 

I wouldn't give shucks for any other way . 

好吧一我很高兴我们以侦察的方式发现了它， 

我对于任何其它的途径也将不会放弃。 

- TOM SAWYER (1884) 
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附录 A 数值数量表 


表1在标准子程序和在对计算机程序的分析中 

经常使用的数量（到小数点后40位） 


42 = 1.41421 35623 73095 04880 16887 24209 69807 85697- 

S = 1.73205 08075 68877 29352 74463 41505 87236 69428 + 

S = 2.23606 79774 99789 69640 91736 68731 27623 54406+ 

^10 = 3.16227 76601 68379 33199 88935 44432 71853 37196- 
Hi - 1.25992 10498 94873 16476 72106 07278 22835 05703 - 
二 1.44224 95703 07408 38232 16383 10780 10958 83919- 

i/2 = 1.18920 71150 02721 06671 74999 70560 47591 52930- 

In 2 = 0.69314 71805 59945 30941 72321 21458 17656 80755 + 

In 3 = 1.09861 22886 68109 69139 52452 36922 52570 46475 - 

In 10 = 2.30258 50929 94045 68401 79914 54684 36420 76011 + 

1/ln 2 = 1.44269 50408 88963 40735 99246 81001 89213 74266 + 

1/ln 10 = 0.43429 44819 03251 82765 11289 18916 60508 22944 — 

7T - 3.14159 26535 89793 23846 26433 83279 50288 41972- 

l° = 7r/180 = 0.01745 32925 19943 29576 92369 07684 88612 71344 + 

Urc - 0.31830 98861 83790 67153 77675 26745 02872 40689 + 

tt 2 = 9.86960 44010 89358 61883 44909 99876 15113 53137- 

V^ = r(l/2) = 1.77245 38509 05516 02729 81674 83341 14518 27975 + 

r(l/3) = 2.67893 85347 07747 63365 56929 40974 67764 41287- 

r(2/3) = 1.35411 79394 26400 41694 52880 28154 51378 55193 + 

e = 2.71828 18284 59045 23536 02874 71352 66249 77572 + 

1/e = 0.36787 94411 71442 32159 55237 70161 46086 74458+ 

e 2 = 7.38905 60989 30650 22723 04274 60575 00781 31803 + 
7 ^ 0.57721 56649 01532 86060 65120 90082 40243 10422- 

Inrc = 1.14472 98858 49400 17414 34273 51353 05871 16473 - 

令二 1.61803 39887 49894 84820 45868 34365 63811 77203 + 

e 7 = 1.78107 24179 90197 98523 65041 03107 17954 91696 + 

e W4 = 2.19328 00507 38015 45655 97696 59278 73822 34616 + 

sin 1 = 0.84147 09848 07896 50665 25023 21630 29899 96226 - 

cos 1 - 0.54030 23058 68139 71740 09366 07442 97660 37323 + 

-^(2) = 0.93754 82543 15843 75370 25740 94567 86497 78979 - 

以 3) = 1.20205 69031 59594 28539 97381 61511 44999 07650 - 

In 今二 0.48121 18250 59603 44749 77589 13424 36842 31352- 

1/hi 今二 2.07808 69212 35027 53760 13226 06117 79576 77422 - 

-In ln2 - 0.36651 29205 81664 32701 24391 58232 66946 94543 - 


附录 A 数值数量表 


表2 


在标准子程序和在对计算机程序的分析中 
经常使用的数量（到八进制45位） 


o.i ： 
0 . 01 : 
0 . 001 : 
0.0001 
0.00001 
0.000001 
0.0000001 
0.00000001 
0.000000001 
0.0000000001 

42 

vTo 

n 

In 2 
In 3 

In 10 

l/ln2 

1/ln 10 










0 . 0 6 3 1 U 6 3 1 
0.0 05 0 7 5 3UU 
0 • 0 0 0 UO 6 1115 
0 • 0 0 0 0 3 乏 1 5 5 6 

o • ooooo ihi e i 
0 . 0 0 0 0 0 0^06 1 
0 • 0 0 0 0 0 0 0 1 5 3 
0• 00000 00012 
0•OOOOO 00001 

0.00000 ooooo 

1 . S^UOU 7 3 1 

1.5666 3 6 5 6 U1 
l . 110 61 36 33 U 
3 . 12 3 05 U0U6 

1.2 0505 0 5 1 U6 

1.3U^ 3 3 5 0 hhh 

1. 1U0 6 7 1 U0 5 0 

0•5UZ71 01115 

1• 06131 Ihl 5Z 
mm 0 6 7 35 

0 . 336^6 1 5hZ5 

3.11037 55ZhZ 


12152 
30 155 
ihhSl 
61106 


1° = 7t/180 = 

0.01073 

1/tc = 

0 • zhne 

丌 2 = 

11.67517 

= r(i/2) = 

1.61337 

r(i/3)- 

^ . 5 3 3 J^7 

r(2/3) - 

1 • ^6 5^3 

e = 

^.55760 

1/e- 

0 . U^6 


3iU63 

“6 3 1 

U6 3 1 U 

6 3 1 U6 

3 1 M6 3 

17^7 0 

^U36 5 

6 05 0 7 

5 3UU 

17^7 0 

6U51 0 

6 517 6 

7 6 355 

hhl6 h 

U^5U 

1 3 5 3 0 

7 0 U1 Ji 

5 U5 1 2 

7 517 0 

3 3 0 21 

3^610 

1 06 6U 

S6 0U1 

0 6 0 7 7 

17 401 

51 36U 

05 5 36 

6615 1 

55515 

Oil U6 

111 h5 

] 5Z1 h 

5 3 6 UU 

1 27 U1 

7^31? 

57 1 U 

5 6 10 6 

G U3 0 3 

U1 31 U 

7 7 3 

0 U5 6 0 

6 UO 

U66 5 5 


1 i hie 

0 6 6 16 

SSI 6 6 

3 5 3 67 

5 565 3 

37 26 5 

7 7 167 

U6ZZ0 

kl6tl 

6 6 115 

U61 2 5 

3 0^31 

^5163 

5 UU5 3 

5 016 5 

6 0 3 6 1 

5 7 7 ^ 

kl 6 01 

51 hU 

6 3 0 0 3 

0 05 6 S 

6 U5 5 5 

hhh 


57101 

U1 U6 6 

15 345 

0 5 3U2 

UH 5 6 

6 5 33U 

15 51 h 

”17 5 

7 3 1 3 A 

6 7 3 6 3 

7 6 13 3 

0 5 3 3U 

6 1556 

Mh5 5 

1 U 51 

6 UUSO 

6 0^71 

7 5 0 7 1 

7 3 6 3 ^ 

57 117 

0 7 3 1 6 

3 0 0 0 7 

5 5 00 6 

0 5121 

S2hU0 

6 3 065 

2 5 0 12 

5t5lh 

2 5 UO 5 

565 1 2 

66 5 hi 

56 0^6 

5 3U0 5 

7 7 0 ^7 

3 5750 

3 7 7 66 

hOShh 

1 1 56 乏 

U1 6 1 U 

51115 

5 3 5^5 

6 55 

1 0^6U 

3 02 1 5 

1 U^SO 

6 3050 

56 0 06 

i 

1 23UU 

1 56 0 3 

5 UZ1 6 

6 3 3 5 1 

6 ISUU 

泛 0^51 

^ 3 7 60 

hi 151 

5 0 765 

6^135 

7 13” 

泛 5564 

1 5U66 

3 0 0 ^1 

6U1 36 

6 52U1 

U1 035 

U0 5U 

15 273 





14631 “6345 — 
之 “36 5 605 1 0 — 


0^030 UU61l 


1 50 02 35M — 
56063 3UU17 - 
hhhl0 乏 6033 + 
^035U 02151 + 


01512 63321 
hOiZh 2 1 7 M 


3U6 0 16 ”一 

12 57 5 1 7 M3 5 + 
3 U 0 7 3 kttU — 
5 5610 3^0 ^ 1 - 
33775 ^15+ 


22J4 1 5 0 3 0 2U 


3 1 14 7 6 0 1 — 

0115 5 7 3 1 3 6 + 


7 1366 536 UO 


3 5 57 U 55 S 37 + 


U6 050 50 7 0 5 
35175 0US53 
UH 56 0 6^20 


7 0 16 3 泛 1 1 乏泛 + 
泛之 056 1 i 5 UU + 
1 5 1 56 7 0 067 - 
hoe 5 h 3JH 0 3 — 
3 UU1 0 1 7 7 62 - 






35^$U 51013 61316 73106 hi6hh 5U65S 00106 660U6 


57 111 1 U^l 5U 7 U3i 


5U511 SI 65 5 60 1 乏 6 2 3^31 0ZU51 + 


e= 1,55160 5^130 50535 5ilh6 51775 ht5hl OOUU 7^363 61661+ 

l/e= 0 .n hl 6 5 3 066 1 3 1 67 U616i 511Z6 15U36 OlhhO 52 3 7 1 0 3 3 55 + 

e 2 = 1 .SOUU U56 15 n 35 5 3 3U6 0 6 35 0 7 3 50 UO U6 6U ^5356 50H7 + 

7= 0 . hhl hi 1J^7 7 0 6 166 6 0 6 1 7 泛 ” 乏 1 5 7 US 7 6 0 1 0 0 乏 51313 Z5 5Z 1 - 

In it= U 1 1^06 U0UU3 hi 503 36U13 6 53 1U 5166 i 52JH 0 3 7 5 1 1 U6 0 51 + 

<}>= 1 . M7MS 3 57 1 56 ^ 7 7 5 1 泛 3 7 0 1 ^7 6 SU 71401 UOH 1 661 10 15010 + 

e y = 1.61771 13U51 6U 51 6 576 1 llhll 36553 53 3” il 5 5 h H ^60 + 

e K/4 = 芝 • 1M7 5 U5U 16 162 5n 7 0 3 553 0 5 3525 UU3 0 7 0217 1- 


sin 1 
cos 1 
-^(2) 
«3) 
\nj> 
1/ln 令 

—In In 2 


0 . 6 566 5 ^UUH Ohhih 13U0^ 0 3 0 6 7 ^36 UU 1161 


01 hih 1 U5 0 5 






0 . U^U5 0 50 0 3 7 31U0 6 hll U 01 011 1U6 6 6 ^7 3^ 0 7 067 5 USH + 

0 . 7 U0 0 1 h5ihh 53 乏 53 Ul36^ hliOl " 3 50 5 0 0 1U hSiOO n 7 0 6 + 

1 . 1U 7 3 5 0 0 0 ^ 3 6 0 0 1 U ZO hi 0 15613 “2 56 1 3 1 7 1 5 1 0 1 7 7 0 6 6 1 U + 

0.36630 ^6^56 61113 011U5 13700 hiOOh 5Z^Sh 30700 U06U6 + 




t 、 0U7 7 6 60 1 1 1 1 7 1 UU U1 51 


U U3 6 1 6 575 0 0 355 U36S0 h0 65i 



0.^ 7 35 1 7 1 乏 3 3 6 1165 63650 ilhOi 5663 1 乏 6 3 3 A U U55 57 0 05 
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附录 A 数值数量表 


在同排序和查找算法的分析相关联中，出现有没有普通名字的若干有趣的常 

数。在等式5.2.3-(19)和6.5-(6)以及在习题5.2.3-27,5.2.4-13,5.2.4-23,6.2.2- 

49,6.2.3-7,6.2.3-8,6.3-26 以及 6.3-26 中，这些常数已被计算到小数点后面40 
位。 


表3 


对于小的 w 值的调和数，伯努利数以及斐波那契数的值 


H 


B 


F 


-1 


10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 
21 
22 

23 

24 

25 

26 

27 

28 

29 

30 


12 


11/6 
25/12 
137 / 60 
49/20 
363 / 140 
761 / 280 
7129 / 2520 
7381 / 2520 
83711 /27720 
86021 / 27720 
1145993/ 360360 
1171733/ 360360 
1195757/ 360360 
2436559 / 720720 
42142223 / 12252240 
14274301 /4084080 
275295799 / 77597520 
55835135 / 15519504 
18858053 / 5173168 
19093197/ 5173168 
444316699 / 118982864 
1347822955 / 356948592 
34052522467 / 8923714800 
34395742267 / 8923714800 
312536252003 / 80313433200 
315404588903 / 80313433200 
9227046511387/ 2329089562800 
9304682830147 / 2329089562800 


1/6 


-1/30 


42 


30 


66 


691 / 2730 


16 


-3617/510 


43867 / 798 


- 174611 / 330 


854513 / 138 


- 236364091 / 2730 


8553103 


23749461029 / 870 


8615841276005 / 14322 


13 

21 

34 

55 

89 

144 

233 

377 

610 

987 

1597 

2584 

4181 

6765 

10946 

17711 

28657 

46368 

75025 

121393 

196418 

317811 

514229 

832040 


10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 
21 
22 

23 

24 

25 

26 

27 

28 

29 

30 
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附录 A 数值数量表 


对于任意的 


X 


，设札 



1 


71^1 


71 


71 



X 


，于是 


H 


1/2 


H 


1/3 


H 


2/3 


2 - 21n 2 y 

= 3 — 士 tc/ ^3 


丌/ 


2 


In 3 ， 




- + 

2 卞 2 


2 


In 3 ， 


H 


1/4 


4 - 


2 


丌 


一 31n 2 ， 


H 


4 


3/4 



2 


tc 一 31n 2 ， 


H 


1/5 


5 



姊 3/2 5— 1/4 



4 


5 


yV5i 


令 


Ho — 



2 


2 


丌今 


— 3/2 


5 


- 1/4 - fin 5 



1 


H 


3/5 



2 


丌令 


-3/2^- 1/4 


— 丁 In 5 


4 



2 

1 


2 


H4/5 = 


4 


+ 




2 


斜 3/2 5 -"4 — 


4 


In 5 


2 


抓令， 
V5ln 令， 


V 51 n ^ 


H 



= 6 — +tc V3 — 21n 2 - 


2 


In 3 ， 


H 


6 


5/6 



1 


2 


7t V3 — 21n 2 — 


2 


In 



而且，一般地，当 0< p<q 时（参见习题 1.2.9-19 )， 


Hpjq 


生 

P 


f co + —+ S 


2pn 

cos 一 1 — 7t 


In si 


n 


sm 


q 


丌 o 
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附录 B 符号索弓 I 


在下列公式中，未被进一步定性的字母有如下的 意义： 

j,k 整数值算术表达式 
m , n 非负整数值表达式 
X 实数值算术表达式 

文 复数值算术表达式 

/ 实数值或复数值函数 

P 指针值表达式（或者是 A, 或者是一个计算机地址) 

S,T 集合或多重集合 


a , P 符号串 


形式符号 

意 义 

定义的位置 

V^-E 

把表达式 £ 的值赋给变量 V 

1.1 

— ^ V 

交换变量 1/ 和 V 的值 

1.1 

A fl 或 A[”] 

线性数组 A 的第《个元素 

1A 

八_或 A [ m 9 n _ 

矩形数组 A 的 m 行/7列的元素 

1.1 

NODE(P) 

假定 P#A, 其地址为 P 的节点（由它们的字段名个别地区分的变量组） 

2.1 

F(P) 

其字段名为 F 的 NODE(P) 中的变量 

2.1 

CONTENTS(P) 

其地址为 P 的计算机字的内容 

2.1 

LOC(V) 

在一台计算机内变量 V 的地址 

2. 1 

P<=AVAIL 

把指针变量 P 的值置成一个新节点的地址 

2.2.3 

AVAIL<=P 

把 NODE(P) 恢复成自由 存储； 它的所有字段失去标识 

2.2,3 

top(S) 

在一非空栈 S 顶部的节点 

2.2. 1 

x<=s 

把 S 弹到 X: 即置 X— top (S); 然后从非空栈 S 删去 top(S) 

2.2. 1 

s<=x 

把 X 压人栈 S; 把值 X 插人作为栈 S 顶部的新栈元 

2.2. 1 


条件表达式：如果 B 为真表 为假为 E ' 


[B] 

条件 B 的特征函数 

1.2.3 

^kj 

克洛涅克迭塔函数[ 7 =々] 

1.2.6 

[z']g(z) 

幂级数 gU) 中/的系数 

1.2.9 

S / ⑷ 

R ( k ) 

使得变量々是一个整数且关系只 U) 为真的所有 /U) 之和 

1.2.3 
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附录 B 符号索引 


形式符号 


IT / ⑷ 

R ( k ) 

min /々 

R ( k ) 

max f { k ) 

R ( k ) 

1 \ k 



(续） 


定义的位置 


使得变量々是一个整数且关系 RU ) 为真的所有 / U ) 之积 


S \ T 


使得变量々是一个整数且关系 i ? u ) 为真的所有 / U ) 之极小值 
使得变量々是一个整数且关系尺 U ) 为真的所有 / U ) 之极大值 
j 整除 是；々 mod j 二 0且 j >0 
集合 的差 ： U la 在 S 中且〃不在 了中丨 


gcd(j , k ) 


和々的最大公因子 G ’ 


O^O; max d) 

d\ } .d\ k 


丄々 

A 丁 


x 


J 与 k 互素 : gcd(j ，々） 二 1 • 

矩阵数组 A 的转置 A t [ j ，々 
a 的左右颠倒 
^的 . y 次方（当： r 为正时） 


A[ 々， 


X 


: r 的 々次 方； （ 々 11 x ; \ I x 

0^ j 〈 k 


一 k 


X 


工的々 升阶乘： r (: r + 々 ）/ r(:r ) 二 （[] (x + j) ;\/(x + y)~ k 

Q^j<k 




: r 的々降阶乘：: r ! (: r —々）！ = ( 11 {oc ~ j ) ; ll(x - k )— 

Q‘j<k 


n ! 


0 


n 的阶乘： r ( 77 + 1 ) 二/ 


二项式系数 U <0=>0 ; ^/々！) 




多项式系数（仅当 W + … + 时才有定义) 


1 . 2.6 


m 


第一类斯特 林数: 




k i k 2 --k 


0<k, <kq<，"<k < 

1 z ti - m 


1 . 2 . 


m 


\R(a)\ 

， • • * ， a w I 


X 


第二类斯特 林数: 




々 1 々 2 … 是 ,, 




使得关系 PU ) 为真的所有 a 的集合 
集含或多重集合丨刹 

分数部分（用于上下文中，指的是一个实数值而非集合 ）：1- L：r 


a . • 6 ] 或 [ a ， 6 ] 闭区间丨: r I a < :r < 6 i 
a • • 6) 或 （ a , 6 ) 开区间丨 x I u < x < 6 } 
a • •/?) 或 [a ， 6) 半开区间 
a • . 6 ] 或（“， 6 ] 半闭区间：丨 j、I <2 < :r < 6 
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附录 B 符号索引 


形式符 


I SI 



基数 ：集合 S 中的元素个数 


( 续） 


定义的位_ 





X 的绝对值 ： ( X ; 


X 


a 


的长度 


x 


X 


的地板，即最大整数函数： max ^ j 々 


1 . 2.4 


x 


的天花板，即最小整数函数： 


1 . 2.4 


x 


mod 


mod 函数 ： （‘v = - : vl _ W ： y 」) 


1 . 2.4 


jc = x ' (modulo y ) 同余 关系 ， i mod v v = x 'mod y 


1 . 2.4 


0(/(”）） 


当 


时， /( 77 ) 的大 O 


1 . 2.11 


0(/U)) 


当 


0 时， / U ) 的大 O 


1 . 2 . 11.1 


m/u)) 


当 


时， /( w ) 的大 n 


1 . 2 . 11 . 


0(/U)) 


当 




00 时， /(〃） 的大 ® 


1 . 2.11 


log ， 〆 ， 


(当 i >0,6>0 和 b ^\ 时） x 的以6为底的对数，使得 x - 1/ 


1 . 2.2 


lnx 


自然对数 ： log e a 


1 . 2.2 


lga ， 


二进制对数 log 2 x 


1 . 2.2 


expjr 




的 指数: 


1 . 2.2 


X 


无穷序列，…（这里字母7?是符号的一部分) 


1 . 2 , 


x 


在: T 处的导数 


1.2.9 


/( 


X 


/在 X 处的二阶导数 


1 . 2 . 10 


(U) 


X 


阶导数 ：( 




0=>/( a *); 〆 （: r ))， 其中 gU 


°( 


1 . 2 . 11.2 


H 




阶数为 


的调和数 D 1 /y 




1 . 2 . 


H 


调和数 ： H 


( 1 ) 


1 . 2 . 


F 


斐波那 契数： USIomF 


+ R — 


1.2. 


B 


贝努利数1! 


/(〆 — 1 


1 . 2 . 11.2 


det ( A ) 


正方矩阵 A 的行列式 


1 . 2 . 


sign!, jo 


x 的符号： [ j : > 0 ] — [ a ， 〈 0 ] 




仄塔函数 ：lim 


的）（当 a 、> l 时) 


1 . 2 . 


r( 


x 


伽玛函数， 




— 1 )! 




7(x, 


1 . 2 . 


7(D) 


不完备的伽玛 函数: 


l dt 


1 . 2 . 11 . 
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欧拉常数 ：lim 


( H }> - In 


1 . 2 . 


自然对数 的底： ：!： 


^0 


\! n\ 


1 . 2.2 





附录 B 符号索引 


形式符号 


A 



定义的位置 


圆周率 


>0 


l ) n l (2 n + 1) 


无穷大：比任何数都大 
空链（指向空地址的指针) 
空串（长度为0的串） 

空集（没有元素的集合） 


9( 


jr 气 y 

Pr ( S ( X )) 


EX 


黄金比 ： y ( 1 + /5) 

欧拉的个数 函数： Yj [々丄 《] 

(X k < ” 

x 近似地等于 _v 

对于 X 的随机值，命题 S ( X ) 为真的概率 


X 的期 望值： 


JC 


mean 


U) 


var 


u) 


由生成函数 g 表示的概率分布的平均值 gki ) 

由生成函数表示的概率分布的方差 ： g "( i ) + 〆 （〖）-/ ( I ) 


1 . 2 . 10 


mm jc 1 , ave X2 


max ,dev x 4 ) 


’有极小值： n ， 平均（期望值）： r 2 ，极大值 : r 3 ，标准差&的一个随机变量 


1 . 2.10 




z 




^的实部 
z 的虚部 
复共轭沉 


1 . 2.2 


1 . 2.2 




z 


1 . 2.2 


( Wo . a _ ! 6 6进制位置记数 符号 ： D 




b k 


4.1 


// ， x 2 , …， 连分数 1/( + l /( x 2 + 1/( ••- + 1/(，"）•••））) 


4.5. 


a y /3 

sy t 


/( 


x 


rA 


rX 


rll ，… ， rI 6 


rj 


(L ： R) 


相互穿插的积 

多重集合的和；例如 I a ， 6 } i±J j a , r } = \ u ， a ， b ， 
函数的增长： /( b ) -/(«) 

算法，程序或证明的结束 
一 个空格 


. 1.2 


4.6.3 


MIX 的寄存器 A (累加器） 

MIX 的寄存器 X ( 扩充） 

MIX 的（变址）寄存器 
MIX 的（跳跃）寄存器 
MIX 的字的部分字段 0< L < R <5 
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附录 B 符号索引 


(续) 


形式符号 

意义 

\/ 

定义的位置 

OP ADDRESS,1(F) 

MIX 令的记号 

1.3. 1 ,1.3.2 

U 

MIX 中的时间单位 

1.3. 1 

关 

MIXAL 中的“自身” 

1.3.2 

0F ， 1F,2F ，〜， 9F 

MIXA ]： 中的“向前”局部符号 

1.3.2 

0B ， 1B ， 2B ， ".9B 

MIXAL 中的“向后”局部符号 

1.3.2 

0H ， 1H ， 2H〆" ， 9H 

MIXAL 中的“这里”局部符号 

1.3.2 
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人名和术语中英对照表 


一 oo - oo 负无穷大 

1/3 - 2/3 conjecture 1/3 -2/3 猜测 
2,3 trees 2-3 叉树 
(2,4) - trees ( 2，4 ) 树 

2 -d trees 2 _ d 树 

2 -descending sequence 2 递减序列 
2 -ordered permutations 2 有序排歹 !j 
80-20 rule 80-20 定律 

00 00 无穷大 

as sentinel 无穷大作为标记 
it ( circle ratio ) it (圆周率） 

令 (golden ratio),xiv 今(黄金分割比） 

( a ， b ) -trees (a ， b ) 树 
Abbreviated keys 缩写的键码 

Abel ， Niels Henrik ， binomial formula 阿贝尔•尼尔斯 

•亨里克二项式公式 
limit theorem 阿贝尔极限定理 
Abraham ， Chacko Thakadiparambil 阿布拉罕，查克戈 

•塔卡迪帕拉姆比尔 

Absorption laws 吸收定律 

Adaptive sorting 适配性排序 

Addition of apples to oranges 苹果和梧子相加 

Addition of polynomials 多项式加法 

Addition to a list 加到一个表中，见 Insertion 

Address calculation sorting 地址计算排序 

Address table sorting 地址表排序 

Adelson - Velsky , Georgii Maximovich 阿德尔森-维 

尔斯基，乔治•马克西莫维奇 

Adjacent transpositions 相邻转置 
Adversaries 对手 
AF-heaps AF - 堆 

Agarwal，Ramesh Chandra 阿加尔瓦尔，拉米斯•钱 

德拉 

Agenda ， 见 Priority queue 曰程表 
Aggarwal ， Alok 阿加尔瓦尔，阿罗克 


Aho ， Alfred Vaino 阿霍，阿尔弗雷德•维诺 
Aigner ， Martin 埃泽纳尔，马丁 
Ajtai,Miklos 阿伊泰，米克洛斯 

al-Khwarizml , Abu ‘ Abd Alluah Muhammad ibn Musa 

阿尔-科瓦里兹末，阿布•阿布德•阿拉•穆哈默德 • 
伊本•穆萨 

Aldous ， David John - 阿尔多斯，戴维•约翰 

Alekseev , Vladimir Evgenievich - 阿历克谢耶夫， 

弗拉基米尔•叶南根尼维奇 

Alexanderson ， Gerald Lee 阿历山德森，杰拉德•李 

A1GOL —— ALGOL (程序语言） 

Algorithms , analysis of 算法分析，见 Analysis 
comparison of 算法的比较，见 Comparison 
proof of, 算法的证明，见 Proof 
Allen , Brian Richard 艾伦，布里安•理查德 
Allen ， Charles Grant Blairfindie 艾伦，查尔斯•格 兰特 

•布赖尔芬迪 

Alphabetic binary encoding 字母二进制编码 
Alphabetic order 字母顺序 
Altenkamp ， Doris 阿尔登卡姆普，多利斯 
Alternation runs 交错路段 

Amble ， Ole 安布，奥利 

Amdahl ， Gene Myron 阿姆达尔，洁恩•迈伦 

American Library Association rules 美国图书馆学会 

规则 

AMM ： American Mathematical Monthly ， published by 
the Mathematical Association of America since 

1894. 自 1894 年以来由美国数学协会出版的 
美国数学月刊 

Amortized cost 平摊的费用 
Amphisbaenic sort 两端有头的排序 
Anagrams ， 变异字，也见 Permutations of a multiset. 
Analysis of algorithms 算法分析也见 Complexity 
analysis 

Analytical Engine 分析机 
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人名和术语中英对照表 


AND (bitwise and) 与（按二进位进行的与运算） 
Andre , Antoine Desire 安德烈，安托万•德席里 
Anti-stable sorting 反稳定排序 
Antisymmetric function 反对称函数 
Anuyogadvara-sutra 阿鲁约加德瓦拉-苏特拉 
Apollonius Sophista , son of Archibius 阿波洛尼厄斯 • 

索菲斯塔，阿奇比尤斯的儿子 
Appell , Paul Emile 阿普培尔，保罗•埃迈勒 
Approximate equality 近似相等 
Aragon , Cecilia Rodriguez 阿拉贡，塞西莉亚•罗德里 

格兹 

Archimedes of Syracuse 赛拉古斯的阿基米德 
solids 阿基米德的立体 
Arge，Lars Allan 阿尔基 • 拉斯•艾伦 
Arg ument 自变量 
Arisawa ， Makoto 有泽诚 
Arithmetic overflow 算术溢出 
Arithmetic progressions 算术级数 
Armstrong,Philip Nye 阿姆斯特朗 • 菲利普•奈 
Arora，Sant Ram 阿罗拉 • 桑特•拉姆 
Arpaci-Dusseau ， Andrea Carol 阿尔帕西 - 德西奥，安 

德烈•卡洛尔 

Arpaci-Dusseau ， Remzi Hussein 阿尔帕西 - 德西奥，里 

米古•胡森 

Ascents 递增 

Ashenhurst ， Robert Lovett 阿申赫斯特，罗伯特•洛 
维特 

Askey ， Richard Allen 阿斯基，理查德•阿伦 
Associated Stirling numbers 结合的斯特林数 
Assocative block designs 结合的区组设计 
Associative law 结合律 
Associative memories 联想存储 
Asymptotic methods 渐近方法 

limits of applicability 渐近方法应用的极限 
Attitude 态度 
Attributes 属性 
binary 二进制属性 
compound 复合属性 

auf der Heide ， 奥弗 • 德 • 海德，见 Meyer auf der Heide 


Automatic programming 自动程序设计 
AVL trees ， 459，AVL 树见 Balanced trees 
Avni, Haim 艾夫尼•海伊姆 

B-trees B - 树 
B + - trees B + 树 
B* - trees B* 树 

Babbage ， Charles 巴贝奇，查尔斯 
Baber ， Robert Laurence 巴伯，罗伯特•劳伦斯 
Babylonian mathematics 巴比伦的数学 
Bachrach , Ran 巴赫拉奇，兰 
Backward reading 向后读，见 Read-backward 
Baeza-Yates，Ricardo Alberto 巴伊扎 - 雅特斯，里加多 
•阿尔贝托 

Bafna , Vineet 巴甫纳，维尼特 

Bailey ， Norman Thomas John 贝利，诺曼 • 托马斯•约 

翰 

Balance factor 平衡因子 
Balanced filing 平衡文件 

Balanced incomplete block desigm 平衡的不完备区组 

设计 

Balanced merging 平衡合并 
with rewind overlap 通过重绕重迭的平衡合并 
Balanced radix sorting 平衡的基数排序 
Balaced trees 平衡树 

weight-balanced 权平衡的平衡树 
Balancing a binary tree 平衡二叉树 
Balancing a k-d tree 平衡 k-d 树 
Balbine，Guy de 巴尔拜因，黄伊•笛 
Ball, Walter William Rouse 鲍尔，沃尔特 • 威廉•劳斯 
Ballot problem 投票问题 

Barnett , John Keith Ross 巴尼特，约翰 • 基恩•罗斯 
Barton ， David Elliott 巴顿，戴维•埃里奥特 
Barve ， Rakesh Dilip 巴尔维，卡基恩•迪里普 
Barycentric coordinates 重中心坐标 
Basic query 基本查询 

Batcher , Kenneth Edward 巴切尔，肯尼恩•爱德华 
Batching 分批 

Baudet ， Gerard 鲍德特，杰勒德 
Bayer，Paul Joseph 拜尔，保罗•约瑟夫 
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Bayer , Rudolf 拜尔，鲁道夫 

Bayes ， Anthony John 贝斯，安托尼•约翰 

Bell , Colin James 贝尔，科林•詹姆斯 

Bell ， David Arthur 贝尔，戴维•阿瑟 

Bell , James Richard 贝尔，詹姆斯•理查德 

Bellman，Richard Ernest ， ix. 贝尔曼，理查德•欧内斯 

特 

Ben-Amram ， Amir Mordechai 本 • 安姆兰姆，阿米尔 • 

莫德才 

Bencher ， Dennis Leo 本彻，丹尼斯•利奥 

Benchmarks 水准基点 

Bender ， Edward Anton 本德，爱德华•安东 

Bennett , Brian Thomas 贝内特，布顿恩•托马斯 

Bennett ， Mary Katherine 贝内特，马里•卡特赖尼 

Bent , Samuel Watkins 本特，萨穆尔•沃特金斯 

Bentley,Jon Louis 本特利，琼•路易斯 

Berkeley ， George 贝克利，乔治 

Berman ， Joel David 贝尔曼，乔尔•戴维 

Berners-Lee,Conway Maurice 伯纳斯 • 李，康韦•莫里 

斯 

Bernoulli ， Jacques ( = Jakob = James) 贝努利，雅各斯 

(= 雅可尼 = 詹姆斯） 
numbers 贝努利数 

numbers ， calculation of 贝努利数的计算 
Berra , Lawrence Peter “ Yogi” 贝尔拉，劳伦斯•彼得 
“ 约基 ” 

Bertrand,Joseph Louis Francois 贝特兰德，约瑟夫 • 

路易斯•法兰索伊斯 

Best-fit allocation 按 “ 最好的适合”分配 

Best possible 最好的 

Beta distribution 分布 

Betz ， B.K. 贝兹， B.K 

Beus, Hiram Lynn 贝尤斯，希兰姆•林尼 

Bhaskara Acharya 巴斯卡拉•阿查里亚 

Bhattacharya，Kailash Nath 巴塔查利亚，凯拉斯 • 纳 

塞 

Biased trees 偏倚树 

Bienayme , Irenee Jules 比奈米，艾琳•朱尔斯 
Bierce ， Ambrose Gwinnett 比尔奇，安布罗斯•格威内 

特 


BINAC computer BINAC( 比纳克）计算机 

Binary attributes 二进属性 
Binary computers 二进制计算机 
Binary insertion sort 二进插入排序 
Binary merging 二进制合并 

Binary quicksort 二尺快速排序，见 Radix exchange 
Binary search 二分查找 
uniform 一致二分查找 
Binary search trees 二分查找树 
optimum 最优二分查找树 
pessimum 悲观的二分查找树 
Binary tree : Either empty ， or a root 二叉树：或者为 

空，或者有一个根节点和它的左二叉子树和右二 

叉子树，也见 Complete binary tree, Extended bi¬ 
nary tree. 

enumeration 二叉树的枚举 
triply linked 三重链接的二叉树 
Binary tries 二叉检索结构的查找 
Binomial coefficients 二项式系数 
Binomial probability distribution 二项式概率分布 
Binomial queues 二项式队 
Binomial transforms 二项式转换 
Biquinary number system 双五进制 
Birkhoff ， Garrett 毕克霍夫，加里特 
Birthday paradox 生日诗论 
Bisection 二分法，见 Binary search 
BIT : Nordisk Tidskrift for Informations-Behandling^ an 

international journal published in Scandinavia since 

1961 杂志名称的缩写。 1961 年以来在科堪德 
纳维亚岀版的国际期刊 
Bit strings 二进位串 
Bit vectors 二进向量 

Bitner，James Richard 毕特纳，詹姆斯•理查德 

Bitonic sequence 双调序列 

Bitonic sorter 双调排序程序 

Bits of information 信息的二进位 

Bitwise and 按二进位的与运算 

Bj orner , Anders 布约纳，安德斯 

Blake,Jan Fraser 布拉克，伊安 • 弗雷泽 

Blanks ， algebra of 空格的代数 
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Bleier ， Robert E. 布莱尔•罗伯特 
Block designs 区组设计 
Blocks of records 记录的块区 
on disk 盘上的块区 
on tape 带上的块区 
Bloom,Burton H. 布鲁姆，伯顿 -H 
Blum ， Manuel 布鲁姆，曼纽尔 
Boas ， Peter van Emde 波亚斯，彼特 • 范•艾姆德 
Boehme McGraw , Elaine M. 贝姆：左格劳，伊莱 
恩 

Boerner ， Hermann 博尔纳，赫尔曼 

Bollobas , Bela 波洛巴斯，贝拉 

Book of Creation 创世说 

Boolean queries 布尔查询 

Booth Andrew Donald 布恩，安德鲁•唐纳德 

Boothroyd , John 布恩罗伊德，约翰 

Borwein ， Peter Benjamin 博尔威因，彼得•本杰明 

Bose , Raj Chandra 博斯，拉伊•钱德拉 

Bostic,Keith 博斯蒂克，基恩 

Bottenbruch , Hermann 伯登布鲁兹，赫尔曼 

Bouricius , Willard Gail 布里西尤斯，威拉德•盖尔 

Bourne ， Charles Percy 查尔斯•拍西 

Brand wood ， Leonard 布兰德伍德，里昂拉德 

Brawn ， Barbara Severa 布朗，巴巴拉•西维拉 

Breaux ， Nancy Ann Eleser 布雷奥，南希 • 安 • 埃里希 

Brent ， Richard Peirce 布伦特，理查德•佩西 

Briandais ， Rene Edward de la 布廉戴斯，雷内•爱德 

华 • 笛•拉 

Brouwer ， Andries Evert 布劳维尔，安德里斯•埃弗特 
Brown,John 布朗，约翰 
Brown ， Mark Robbin 布朗，马克•罗宾 
Brown ， Randy Lee 布朗，兰迪•李 
Brown, William Stanley 布朗，威廉•斯坦利 
Bruhat ， Franccois ， order 布鲁哈特，弗朗索斯顺序 
weak 弱布鲁哈特顺序 

Bruijn，Nicolaas Govert de 布鲁因，尼古拉斯•哥威特 

•笛 

Bryce,James Wares 布莱斯，詹姆斯•沃里斯 
Bubble sort 气泡排序 
multihead 多头气泡排序 


Buchholz , Werner 布赫霍尔兹，维纳 

Buchsbaum , Adam Louis 布赫斯保姆，阿当路易斯 

Bucket sorting 桶排序 

Buckets 桶 

Buffering 缓冲 

size of buffers 缓冲区的大小 
Bulk memory 海量存储，见 Disk storage 
Burge, William Herbert 伯奇，威廉•赫伯特 
Burkhard ， Walter Austin 巴克哈德，沃尔特•奥斯汀 
Burton ， Robert, v. 伯顿，罗伯特 
Butterfly network 蝴蝶网络 

c C 程序语言 

Cache memory 高速缓冲存储 

CACM ： Communications of the ACM, a publication of 
the Association for Computing Machinery since 

1958 自 1958 年以来美国计算机器协会的一种 
出版物 

Calendar queues 曰历队 
Cancellation laws 消去律 
Canfield ， Earl Rodney 坎菲尔德，厄尔•洛德尼 
Cards 卡片，也见 Playing cards 
edge- notched 边带槽口的卡片 
feature 特征卡片 

machines for sorting 用于对卡片排序的机器 
Carlitz ， Leonard 卡里茨，伦纳德 
Caron ， Jacques 卡伦，雅克 
Carries 进位 

Carroll，Lewis ( — Dodgson，Charles Lutwidge) 卡罗 

尔，刘易斯（ = 道奇森，查尔斯 • 勒特威奇） 

Carter ， John Lawrence 卡特，约翰•劳伦斯 
Carter, William Caswell 卡特，威廉•卡斯威尔 
Cartesian trees 笛卡儿树 
Cascade merge 级联合并 

read- backward 向后读级联合并 
with rewind overlap 通过重统重迭的级联合并 
Cascade numbers 级联树 
Cascading pseudo-radix sort 级联虚拟基数排序 
Catalan ， Eugene Charles, numbers 卡塔兰，尤金•查尔 

斯数 
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Catenated search 连接查找 

Cawdrey( = Cawdry = ) , Robert 考德雷伊（=考德 

利），罗伯特 

Cayley , Arthur 凯莱，阿瑟 

Celis Villegas, Pedro 塞利斯 • 维利加斯，彼得罗 

Cells 单元 

Census 人口调查，人口普查 
Cesari , Yves 基扎里，伊维斯 
Chaining 链接 

to reduce seek time 链接来减少查找时间 
Chakra varti ， Gurugovinda 查克拉瓦蒂.格鲁戈文德 
Chandra ， Ashok Kumar 钱德拉，艾舒克•库马尔 
Chang , Shi-Kuo 张系国 

Chartres ， Bruce Aylwin 查特斯，布鲁斯•艾尔温 
Chase ， Stephen Martin 蔡斯，斯蒂芬•马丁 
ChazeUe ， Bernard Marie 查泽勒，贝尔纳德•马里 
Chebyshev ， Pafnutii Lvovich 契比雪夫，帕夫纳蒂•勒 

沃维茨 

polynomials 契比雪夫多项式 
Chen ， Wen-Chin 陈文进 

Cherkassky，Boris Vasilievich 契尔卡斯基，博里斯 • 
瓦西里耶维奇 

Chessboard 棋 盘 

Choice of data structure 数据结构的选择 

Chow ， David Kuo-kien 周，戴维•国权 

Christen ， Claude Andre 克里斯登，克劳德•安德里 

Chronological order 年代顺序 

Chung ， Fan Rong King 钟金芳蓉 

Chung , Moon J ung 郑文桢 

Church ， Randolph 丘奇，伦道夫 

Cl:MIX’S comparison indicator Cl: MIX 的比较指 7K 

器 

Cichelli,Richard James 西彻里，理查德•詹姆斯 

Circular lists 循环表 

Clausen ， Thomas 克劳森，托马斯 

Cleave , John Percival 克里夫，约翰•拍西瓦尔 

Clement , J ulien Stephane 克莱门特，朱利恩•斯蒂芬 

Cliques 集团 

Closest match ， search for 查找最接近的匹配 
CMath ： Concrete Mathematics , a book by R. L. Gra¬ 


ham, D. E. Knuth，and O. Patashnik . 由 R. L. 
Graham 和 D. E. Knuth 和 O. Patashnik 合著的一 

本专著 

CMPA( compare rA) CMPA (和 i:A 比较）指令 
Coalesced chaining 接合链接 

COBOL COBOL 程序语言 

Cocktail-shaker sort 鸡尾混合排序 
Codes for difficulty of exercises ， xi . 习题难度的编码 
Coffman, Edward Grady, Jr. 小科夫曼，爱德华•格拉 
蒂 

Coldrick ， David Blair 科德里克，戴维•布莱尔 
Cole , Richard John 科林，安德鲁 • 约翰•西奥多 
Colin，Anrew John Theodore 科勒，理查德•约翰 
Collating 整理，见 Merging 
Collating sequence 整理序列 
Collision resolution 冲突的解决 
Column sorting 列的排序 
Combinatorial hashing 组合散列 
Combinatorial number system 组合数系 
Comer , Douglas Earl 康默，道格拉斯，厄尔 
Commutative laws 交换律 

Comp ， J• : The Computer Journal f a publication of the 

British Computer Society since 1958 自 1958 年 
以来由美国计算机学会出版的刊物 

Comparator modules 比较模块 
Comparison counting sort 比较计数排序 
Comparison-exchange tree 比较-交换树 
Comparison matrix 比较矩阵 
Comparison of algorithms 算法比较 
Comparison of keys 键码比较 
minimizing 极小化键码的比较 
multiprecision 多精度键码的比较 
parallel 并行的键码比较 
searching by 通过键码比较进行查找 
sorting by 通过键码比较进行排序 

Comparison trees 比较树 
Compiler techniques 编译程序技术 
Complement notations 补码记号 
Complementary pairs 互补树 
Complemented block designs 互补区组设计 
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Complete binary trees 完备的二叉树 
Complete P-ary tree 完备的 P 叉树 
Complete ternary trees 完备的三叉树 
Complex partitions 复杂的分划 
Complexity analysis of algorithms 算法的复杂性分析 
Components of graphs 图的分量 
Compound attributes 复合属性 
Compound leaf of a tree 一 个树的复合叶 
Compressed tries 压缩的检索结构 
dynamic 动态的压缩检索结构 

Compression of data 数据的压缩 
Compromise merge 折中合并 

Computational complexity 计算的复杂性，见 Com¬ 
plexity 

Computational geometry 计算几何 

Computer operator ， skilled 熟练的计算机操作员 

Computer Sciences Corporation 计算机科学有限公司 

Comrie , Leslie John 科姆里，莱斯利•约翰 

Concatenation of balanced trees 平衡树的连接 

Concatenation of linked lists 链接表的连接 

Concave functions 凹函数 

Concurrent access 并发存取 

Conditional expressions 条件表达式 

Connected graphs 连通图 

Consecutive retrieval 连接检索 

Convex functions 凸函数 

Convex hulls 凸夕卜壳 

Cookies 家常小甜饼 

Coordinates 坐标 
Copyrights ， iv 版权 

Cormen ， Thomas H. 科尔曼，托马斯 
Coroutines 共行程序 


Cotangent 反正切 
Counting, sorting by 
Covering 覆盖 


通过计数进行排序 


Coxeter ， Harold Scott Macdonald 考克斯特，哈罗德 • 


斯科特•麦克唐纳德 

Cramer ， Gabriel 克拉默，加布里埃尔 
Cramer ， Michael 克拉默，迈克尔 
Crane , Clark Allan 克兰，克拉克 • 阿伦 


Crelle ： Journal fiir die reine und angewandte Mathe - 
matik f an international journal founded by A. L. 

Crelle in 1826 1826 年由 A. L. Crelle 创立的一 

份国际期刊 

Criss-cross merge 交叉合并 

Cross-indexing 交叉索引，见 Secondary key retrieval 

Cross-reference routine 交叉访问程序 

Crossword-puzzle dictionary 交叉字谜词典 

Cube, n- dimensional, linearized 线性化的 w 维立体 

Culberson ， Joseph Carl 卡尔伯森，约瑟夫•卡尔 

Culler ， David Ethan 卡勒，戴维•埃坦 

Cundy ， Henry Martyn 坎迪，亨利•马丁 

Cunte Pucci ， Walter 坎托，帕西•沃尔特 

Curtis ， Pavel 卡尔蒂斯，帕夫尔 

Cycles of a permutation 一 个排列的轮换 

Cyclic occupancy problem 循环占据问题 

Cyclic rotation of data 数据的循环转动 

Cyclic single hashing 循环单散列 

Cylinders of a disk 一 个磁盘的柱面 

Cypher ， Robert Edward 赛菲尔，罗伯特•爱德华 

Czech ， Zbigniew J anusz 斯捷彻，泽毕格纽•简努斯泽 

Czen Ping 成平 

Daly ， Lloyd William 戴利，洛伊德•威廉 

Dannenberg ， Roger Berry 丹能贝格，罗杰•贝利 
Data compression 数据压缩 
Data structure ， choice of 数据结构，选择 
Database 数据库 

David ， Florence Nightingale 戴维，弗洛伦斯•奈廷格 

尔 

Davidson ， Leon 戴维森，利昂 

Davies ， Donald Watts 戴维斯，唐纳德•瓦茨 

Davis ， David Robert 戴维斯，戴维•罗伯特 

Davison , Gerard A. 戴维森，杰拉德 • A 

de Balbine ， Guy 德巴尔宾•盖伊 

de Bruijn ， Nicolaas Govert 德 • 布鲁因，尼古拉斯•戈 

维特 

de la Briandais ， Rene Edward 德 • 拉 • 布赖恩戴斯，雷 

内.爱德华 

de Peyster , James Abercrombie, Jr. 德 • 佩译，小詹姆 
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斯•艾伯克龙比 

de Stael , Madame ，德 • 斯塔耶尔，马达默，见 Stael-Hol- 


stein 

Deadlines 截止时间 
Deadlocks 死锁 
Debugging 排错 
Decision trees 决策树 

Dedekind,Julius Wilhelm Richard 戴德金，朱利叶斯 • 

威廉•理查德 
sums 狄德金和数 


Degenerate trees 退化树 
Degenerative addresses 退化地址 
Degree path length 叉树路径长度 
Degrees of freedom 自由度 
Deletion : Removing an item 删去：撤消一个项 
from a B-tree 从一 ^ 棵 B 树中删去 


from a balanced tree 从一棵平衡树删去 

from a binary search tree 从一棵平衡查找树删去 


from a digital search trees 从一^棵数字查找树删去 
from a hash table 从一个散列表删去 
from a heap 从一^个堆删去 


from a leftist tree 从一棵左倾树删去 


from a multidimensional tree 从一 ^ 棵多维树删去 
from a trie 从一个检索结构删去 
Demuth ， Howard B. 德穆思，霍华德 *B 
Den ， Vladimir Eduardovich 登，弗拉基米尔•爱多华 

多维寺 


Denert ， Marlene 迪尼特，马琳 

Dent ， Warren Thomas 登特，沃伦•托马斯 

Derangements 揽乱 

Descents 递降 

Determinants 行列式 

V andermonde 范德蒙德行列式 
Deutsch，David Nachman 杜特斯，戴维•纳彻曼 
Devroye，Luc Piet-Jan Arthur 德夫洛伊，卢克•派伊 

特 • 简•阿瑟 

Diagram of a partial order 一 个偏序的图式 
Dictionaries of English 英文词典 
Dictionary order 词典顺序 

Dietzfelbinger ， Martin Johannes 戴特泽菲尔宾格尔， 


马丁 •约翰尼斯 

Digital search tree 数字查找树 
optimum 最优数字查找树 
Digital searching 数字查找 
Digital sorting 数字排序，见 Radix sorting 
Digital tree search 数字树查找 
Dijkstra,Edsger Wijbe 迪依克斯特拉，埃德加•怀伊 
比 

Diminishing increment sort 减少递减 序 

Dinsmore ， Robert Johe 丁斯莫尔，罗伯特•约希 

Direct-access memory 直接存取存储，见 Disk storage 

Direct sum of graphs 图的直接和 

Directed graphs 有向图 

Discrete entropy 离散摘 

Discrete logarithms 离散对数 

Discrete system simulation 离散系统模拟 

Discriminant 判另 (J 式 

Disk storage 磁盘存储 

Disk striping 磁盘分条 

Displacements,variance of 

Distribution counting sort 分布计数 序 

Distribution functions 分布函数，见 Probability 

Distribution patterns 分布模式 

Distribution sorting ，分布函数见 Radix sorting 分布 

排序 

Distributive laws 分配律 
Divide and conquer 分而胜之 
recurrence 分而胜之递归 
Divisor function d{n ) 因子函数 d(n) 

Dixon,John Douglas 狄克逊，约翰•道格拉斯 

DNA 脱氧核糖核酸 

Dobkin ， David Paul 多布金，戴维•保罗 

Dobosiewicz ， Wlodzimierz 多波谢维奇，维罗德基米 

尔泽 

Dodd ， Marisue 多德，马利舒 

Dodgson ， Charles Lutwidge 多德格森，查尔斯•路特 
维奇，见 Carroll 
Dor ， Dorit 多尔，多利特 
Doren ， David Gerald 多琳，戴维•杰拉德 
Dot product 点积 
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Double- entry bookkeeping 双项簿记 
Double hashing 双重散列 
Double rotation 双重转动 
Doubly exponential sequences 双重指数序列 
Doubly linked list 双重链接表 

Douglas ， Alexander Shafto 道格拉斯，阿历山大•萨菲 

托 

Dowd , Martin John 道得，马丁 •约翰 
Drake,Paul 德雷克，保罗 

Driscoll James Robert 德里斯戈尔，詹姆邦•罗伯特 
Dromey ， Robert Geoffrey 德罗米，罗伯特•乔菲利 
Drum storage 磁盘存储 

Drysdale ， Robert Lewis(Scot) 德赖斯代尔，罗伯特 - 
刘易斯（斯戈特） 

Dual of a digraph 一个有向图的对偶 

Dual tableaux 对偶图表 

Dubost , Pierre 杜博斯特，皮埃尔 

Dudeney ， Henry Ernest 杜德尼，亨利•欧内斯特 

Dugundji , James 达 R 德吉，詹姆斯 

Dull,Brutus Cyclops 达尔，布鲁特斯•赛斯洛普斯 

Dumas ， Philippe 杜马斯，菲利普 

Dumey，Arnold Isaac 达米，阿诺德•伊萨克 

Dummy runs 虚拟路段 

Dumont ， Dominique 杜芒特，多米尼克 

Duplication of code 代码的复制 

Dutch national flag problem 荷兰国旗问题 

Dwyer ， Barry 德威尔，巴利 

Dynamic programming ix 动态程序设计 

Dynamic searching 动态查找 

Dynamic storage allocation 动态存储分配 

e 自然对数的底 

Ebbenhorst Tengbergen ， Cornelia van 埃本霍斯特-登 

格贝尔金，科尔尼利亚•范 
Eckert,John Presper 埃克特，约翰•普雷斯佩 
Eckler , Albert Ross 埃克特，阿尔伯特•洛斯 
Eddy ， Gary Richard 埃迪，加里•理查德 
Edelman ， Paul Henry 埃德尔曼，保罗•亨利 
Edge-notched cards 边带槽口的卡片 
Edighoffer ， Judy Lynn Harkness 埃迪霍弗，朱迪 • 林 • 
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哈克尼斯 

Edmund ， Norman Wilson 埃德蒙，诺曼•威尔森 
EDVAC computer ED VAC 计算机 
Ef e, Kemal 埃菲，克马尔 

Effective power 有效功率，见 Growth ratio 
Efficiency of a digraph —'个有向图的有效性 
Ehresmann ， Charles 爱里斯曼，查尔斯 
Eichelberger ， Edward Baxter 爱彻尔贝格，爱德华•巴 

克斯特 

Eisenbarth ， Bernhard 艾森巴恩，伯恩哈德 

El-Yaniv 埃尔一雅尼夫 

Elcock , Edward Wray 埃尔科克，爱德华•威拉 

Elementary symmetric functions 初等对称函数 

Eleser 埃里希，见 Breaux 

Elevators 电梯 

Elias , Peter 伊莱亚斯，彼得 

Elkies，Noam David 埃尔基斯，诺亚姆•戴维 

Ellery ， Robert Lewis John 埃勒里，罗伯特 • 刘易斯 • 

约翰 

Emde Boas,Peter van 埃姆德 • 波亚斯，彼得•范 
Emden , Maarten Herman van 埃姆登，马尔登 • 赫曼 • 

范 

Empirical data 经验数据 
English language 英语 

common words 英语通用词 
dictionaries 英语词典 
letter frequencies 英语字母频率 
Entropy 摘 

Enumeration of binary trees 二叉树的枚举 

balanced 平衡树的枚举 
leftist 左倾树的枚举 

Enumeration of permutations 排歹 ! J 的枚举 
Enumeration of trees 树的枚举 
Enumeration sorting 枚举排序 
Eppinger, J ef f rey Lee 埃普英杰，杰弗里*李 
Equal keys 相等键码 

approximately 近似地相等的键码 
in heapsort 堆排序中的相等键码 
in quicksort 快速排序中的相等键码 
in radix exchange 基数交换中的相等键码 




人名和术语中英对照表 


External searching 外部查找 
External sorting 外部排序 


Equality of sets 集合的相等 

Eratosthenes of Cyrene 赛里尼的伊拉托斯森斯 

Erdelyi , Arthur 厄德尔莱，阿瑟 

Erdos ,Pal(=Paul) 厄道斯，帕尔（二保罗） 

Erdwinn,Joel Dyne 埃德温，介尔•迪尼 

Erki6 ， Hannu Heikki Antero 厄尔基奥，汉努•海克基 

•安特罗 

Error-correcting codes 误差校正码 

Ershov ， Andrei Petrovich 厄尔索夫，安德烈•彼得罗 

维奇 

Espelid,Terje Oskar 埃斯皮里得，特尔杰 • 奥斯卡 
Estivill-Castro ， Vladimir 埃斯蒂威尔 •■ 卡 斯特罗，弗拉 

基米尔 

Euler ， Leonhard 欧拉，里昂哈德 

numbers(secant numbers) 欧拉数（正割数） 
summation formula 欧拉求和公式 
Eulerian numbers 欧拉的数 
Eusterbrock , Jutta 尤斯特布洛克，贾塔 
Eve,James 伊夫，詹姆斯 
Even-odd merge 偶奇合并 
Even permutations 偶有 _ 歹 11 
Evolutionary process 进化过程 
Exchange selection sort 交换选择 
Exchange sorting 交换排序 
optimum 最优交换排序 

Exclusive or 异或 

Exercises ， notes on ， ix-xi . 关于习题的说明 
Exponsntial function, q -generalized g - 推广的幂函数 
Exponential integral 幂积分 

Extended binary tree : Either a single “external” node，or 
an “ internal ” root node plus its left and right ex¬ 
tended binary subtrees 扩充的二叉树：或者是单 

个 “ 外部的 ” 节点，或者是一个 “ 内部的”根节点加 
上它的左和右扩充的二叉子树 
Extendible hashing 可扩充的散列 
External nodes 外部的节点 

External path length : Sum of the the level numbers of all 
external nodes 外部通路长度，所有外部节点的 

级别数之和 

modified 修改的外部通路长度 


Factorials 阶乘 

generalized 推广的阶乘 
Factorization of permutations 排列的因子分解 
Fagin ， Ronald 法金，罗纳德 
Fallacious reasoning 错误的推理 
Falling powers 下降的次幂 
False drops 错误的丢失 
Fanout 扇出 

Fast Fourier transforms 快速傅里叶变换 
Fawkes ， Guido(Guy) 福克斯，盖多（盖伊） 

Feature cards 特征卡片 

Feijgenbaum , Joan 菲根保姆，琼 

Feijen,Wilhelmus( = Wim)Hendricus Johannes 菲恩， 

威廉 （ = 威姆）亨德里克斯•约翰尼斯 

Feindler ， Robert 范德勒，罗伯特 
Feit, Walter 菲特，沃尔特 

Feldman，Jerome Arthur 费尔德曼，杰罗姆 • 阿瑟 
Feldman,Paul Neil 费尔德曼，保罗•奈尔 
Feller , Willy( - William) 费勒 • 威利（ • 威廉） 

Felsner ， Stefan 费尔斯纳，斯蒂芬 
Fenner,Trevor Ian 芬纳尔，特里福•伊恩 
Ferguson ， David Elton 弗格林，戴维•埃尔顿 
Fermat , Pierre de 皮埃尔•德格式 
Ferragina ， Paolo 弗拉基纳，保罗 
Feurzeig , Wallace 福伊尔齐格，华莱士 
Fiat , Amos 菲亚特，阿莫斯 

Fibonacci ， Leonardo ， of Pisa 比萨的斐波那契•化纳 

德 

Fibonacci hashing , xiv 斐波那契散列 
Fibonacci heaps 斐波那契堆 
Fibonacci number system 斐波那契数系 
generalized 推广的斐波那契数系 
Fibonacci numbers 斐波那契数 

generalized 推广的斐波那契数，也见 Cascade 
numbers 

Fibonacci search 斐波那契查找 
Fibonacci trees 斐波那契树 
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Fibonaccian search 斐波那契查找 

Field ， Daniel Eugene 菲尔德，丹尼尔•尤金 

FIFO 先进先出，见 Queues 

File ： A sequence of records 文件：一个记录的系列 
self-organizing 自组织的文件 
Finding the maximum 寻找极大值 
and minimum 寻找极大值和极小值 
Fingers 手指 
Finite fields 有限域 

Finkel ， Raphael Ari 芬克尔，拉菲尔•阿里 
First-fit allocation 按 “ 头一个适合”进行分配 
First-in-first-out 先进先出，见 Queues 
Fischer ， Michael John 菲希尔，迈克尔•约翰 
Fishburn，John Scot 菲什伯恩，约翰•斯科特 
Fishspear 菲什皮尔 

Fixed points of a permutation 一个排列的不动点 
Flajoley ， Philippe Patrick Michel 弗拉约勒特，菲利普 

• 帕特里克•迈克尔 
Flip operation 触发操作 
Floating buffers 浮动缓冲区 
Floating point accuracy 浮点精度 
Flores ， Ivan 弗洛里斯，伊凡 
Floyd ， Robert W 弗洛伊德，罗伯特 ， W 
Foata ， Dominique Cyprien 福塔，多米尼克•西普里安 
FOCS : Proceedings of the IEEE Symposia on Founda¬ 
tions of Computer Science ( 1975 一 ) ， formerly 
called the Symposia on Switching Circuit Theory 

and Logic Design ( 1960 - 1965 ) ， Symposia on 
Switching and Automata Theory ( 1966 - 1974 ) •会 

议论文集 

Folding a path 对折一条通路 
Foldout illustration 折叠图解 

Fomin ， Sergey Vladimirovich 福明，塞奇 • 弗拉基米 

尔洛维奇 

Ford , Donald Floyd 福特，唐纳德•弗洛伊德 
Ford , Lester Randolph,Jr. 小福特，莱斯特•伦道夫 

Forecasting 预报 

Forest : Zero or more trees 森林:零个或多个树 
FORTRAN FORTRAN 程序语言 

Forward- testing- backward- insertion 向前测试向后插 


入 

Foster,Caxton Croxford 福斯特，卡克斯顿•克劳福 

得 

Fractal probability distribution 断片概率分布 

Fractile insertion 碎片插人 

Frame,James Sutherland 弗兰姆，詹姆斯•萨瑟兰 

Francon,Jean 弗朗松，吉恩 

Frank ， Robert Morris 弗兰克，罗伯特•莫里斯 

Franklin , Fabian 富兰克林，费比恩 

Fraser, Christopher Warwick 弗雷泽，克里斯多弗 • 

沃维克 

Frazer, William Donald 弗雷泽，威廉•唐纳德 

Fredkin ， Edward 弗雷德金，爱德华 

Fredman ， Michael Lawrence 弗雷德曼，迈克尔•劳伦 

斯 

Free groups 自由群 

Free trees 自由树 

Frequency of access 存取频率 

Friedman, Haya 弗里德曼，哈雅 

Friedman，Jerome Harold 弗里德曼•杰罗默•哈罗德 

Friend , Edward Harry 弗兰德，爱德华•哈里 

Frieze ， Alan Michael 弗里泽，阿兰•迈克尔 

Fringe analyses 边缘分析 

Frobenius,Ferdinand Georg 弗罗比尼尤斯，弗迪南 

德•乔治 

Front and rear compression 前后压缩 
F ussenegger ， F rank 弗森尼格，弗兰克 

Gabow ， Harold Neil 加保，哈罗德•尼尔 
Gaines, Helen Fouche 盖恩斯，黑林•福彻 
Gale ， David 盖尔，戴维 
Galen ， Claudius 盖伦，克劳迪亚斯 
Galil , Zvi 加里尔，泽维 

Gamma function T(z ) 伽玛函数 r(z) 

Gandz ， Solomon 甘兹，所罗门 

Gardner ， Erie Stanley 加德纳，厄尔•斯坦利 

Gardner ， Martin 加德纳，马丁 

Gardy ， Daniele 加尔蒂，丹尼尔 

Garsia ， Adriano Mario 加西亚，阿德里亚诺•马里奥 

Garsia-Wachs algorithm 加西亚-沃彻算法 
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(jasarch, William Ian 加沙尔兹，威廉•伊恩 

Gassner ， Betty Jane 加斯纳，贝蒂•简 

Gaudette ， Charles H . 高德特，查尔斯 • H 

Gau(3 ( — Gauss ) ， Johann Friedrich Carl ( = Carl 

Friedrich) 高斯，约翰 • 弗雷德里泽•卡尔 
Gaussian integers 高斯整数 
gcd ： Greatest common divisor 最大公因子 
Generable integer 可生成整数 

Generating functions, techniques for using 使用生成 

函数的技术 
Genes 杰尼斯 
Genetic algorithms 遗传函数 
Genoa ， Giovanni di 吉诺亚，吉乔瓦尼•迪 
Geometric data 几何数据 
George , John Alan 乔治，约翰•阿伦 
Gessel，Ira Martin 杰塞尔，伊拉•马丁 
Ghosh ， Sakti Pada 戈斯，萨克蒂•帕达 
Gibson ， Kim Dean 吉布森，金•迪安 
Gilbert ， Edgar Nelson 吉尔伯特，埃德加•纳尔逊 
Gilbreath ， Norman Laurence 吉尔布里思，诺尔曼•劳 

伦斯 

principle 吉尔布里思原理 
Gillis ， Joseph 吉尔里斯，约瑟夫 
Gilstad ， Russell Leif 吉尔斯塔德，拉塞尔，莱夫 
Gini ， Gorrado 吉尼，科拉多 
Gleason ， Andrew Mattei 格里森，安德鲁•马太 
Goetz ， Martin Alvin 戈茨，马丁 •阿尔文 
Goldberg ， Andrew Vladislav 戈德堡，安德鲁•弗拉基 

斯拉夫 

Golden ratio , xiv 黄金分割比 

Goldenberg ， Daniel 戈登堡，丹尼尔 

Goldstein ， Larry Joel 戈尔斯坦，拉里•乔尔 

Golin ， Mordecai J. 戈林，莫尔德塞 •]( 高可龄） 

Gonnet Haas ， Gaston Henry 康内特，哈斯 • 加斯顿 • 

亨利 


Good，Irving John 古德，欧文•约翰 
Goodman，Jacob Eli 古德曼，雅可布•埃里 
Goodwin ， David Thomas 古德温，戴维•托马斯 
Gore,John K. 戈尔，约翰 -K 
(;otlieb ， Calvin Carl 戈特利布，卡尔文•卡尔 


Goto，Eiichi 后藤英一 k 

Gourdon ， Xavier Richard 戈尔顿 ，扎 维尔•理查德 
GPX system GPX 系统 （ UNIVAX 计算机中的一个 

系统） 

Grabner , Peter J ohannes 格拉布纳，彼得•约翰 
Graham, Ronald Lewis 格雷厄姆，罗纳德•刘易斯 

( 葛立恒） 

Grasselli ， Antonio 格拉塞利，安东尼奥 

Grassl ， Richard Michael 格拉塞尔，理查德•迈克尔 

Gray , Harry Joshua,Jr. 格雷，哈里•小乔舒亚 

Gray，James Nicholas 格雷，詹姆斯•尼古拉斯 

Greatest common divisor 最大公因子 

Green ， Milton Webster 格林，米尔顿 •韦 伯斯特 

Greene ， Curtis 格林，柯蒂斯 

Greene ， Daniel Hill 格林，丹尼尔•希尔 

Greniewski ， Marek 格里纽斯基，马雷克 

Grid files 珊格文件 

Gries ， David J oseph 格里斯，戴维•约瑟 

Grinberg, Victor Simkhovich 格林贝格，维克多•西姆 

克霍维奇 

Griswold ， William Gale 格里斯沃德，威廉•加里 
Gross,Oliver Alfred 格罗斯，奥里弗•艾尔弗雷德 
Grossi ， Roberto 格罗西，罗伯托 
Group ， free 自由群 

Group divisible block designs 群可分区设计 
Grove，Edward Franklin 格罗弗，爱德华•富兰克林 
Growth ratio 生长率 

Guibas ， Leonidas John 吉巴斯，利奥尼达斯•约翰 
Guilbaud , Georges Theodule 吉保德，乔治斯•西奥度 

尔 

Gunji ， Takao 郡司隆男 

Gustafson ， Richard Alexander 吉斯塔夫森，理查德 • 


亚历山大 

Gustavson ， Frances Goertzel 吉斯塔夫森，弗朗西斯 • 


戈策尔 

Gwehenberger ， Gernot 格温贝格，杰尔诺特 
Gyrating sort 回旋排序 


/i-ordered sequence /i - 次序序列 
Hadian , Abdollah 哈迪安，阿布多拉 
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Hajela,Dhananjay 哈杰拉，丹南贾净 

Hajnal , Andras 哈伊纳尔，安德拉斯 

Half-balanced trees 半平衡树 

Hall ， Marshall ， Jr 小霍尔，马歇尔 

Halperin ， John Harris 霍尔拍林，约翰•哈里斯 

Halpern ， Mark Irwin 霍尔祐林，马克•欧文 

Hamilton ， Douglas Alan 汉密尔顿，道格拉斯 

Han ， Guo-Niu 韩国牛 

Hanan , Maurice 哈南，莫里斯 

Hannenhalli ， Sridhar Subrahmanyam 汉能哈里，斯里 

德哈•舒伯拉马尼亚姆 
Haralambous , Y annis 哈拉兰保斯，雅尼斯 
Hardy ， Godfrey Harold 哈迪，戈弗雷•哈罗德 
Hardy ， Norman 哈迪，诺曼 
Harmonic numbers 调和数 
generalized 广义调和数 

Harper ， Lawrence Hueston 哈拍， 劳伦斯•休斯顿 
Harrison ， Malcolm Charles 哈里森，马尔科姆•查尔 

斯 

Hash functions 散列函数 
combinatorial 组合散列函数 
Hash sequences 散列序列 
Hashing 散列 
Havas ， George 哈瓦斯，乔治 
Hayward ， Ryan Bruce 海沃德，里安•布鲁斯 
Heap : A heap-ordered array 堆：一个堆编序的数组 
Heap order 堆序 

Heaps ， Harold Stanley 哈罗德•斯坦利堆 
Heapsort 堆排序 

with equal keys 有相等键码的堆排序 
Heide 海德，见 Meyer auf der Heide 
Height-balanced trees 高度平衡树 
Height of extended binary tree 扩充的二叉树的高度 
of random binary search tree 随机二叉查找树的高 

度 

of random digital search tree 随机数字查找树的高 

度 

of random (M + l)-ary search tree 随机 M + 1 进 

制查找树的高度 

of random Patricia tree 随机帕特里西亚树的高度 
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of random trie 随机检索结构的高度 
Heilbronn ， Hans Arnold 海尔布伦，汉斯•阿尔诺德 
Heising , William Paul 海辛，威廉•保罗 
Heller , Robert Andrew 赫勒，罗伯特•安德鲁 
Hellerman , Herbert 赫勒曼，赫伯特 
Hellerstein , Joseph Meir 赫勒斯坦，约瑟夫•梅尔 
Heilman , Martin Edward 赫尔曼，马丁 •爱德华 
Hendricks, Walter James 亨德里克斯，沃尔特•詹姆 
斯 

Hennequin,Pascal Daniel Michel Henri 亨尼奎因，巴 

斯卡•丹尼尔•迈克尔•亨利 

Hennie,Frederick Clair 亨尼，弗里德里克•克莱尔 
Hermite ， Charles ， polynomial 赫密特，查尔斯多项式 
Herrick ， Robert 赫里克，罗伯特 
Hibbard , Thomas Nathaniel 希巴德，托马斯•纳撒尼 

尔 

Hilbert , David 希巴德，戴维 
Hildebrandt , Paul 希尔德布兰特，保罗 
Hillman ， Abraham P 希尔曼，阿布拉罕， P 
Hindenburg,Karl Friedrich 欣登伯格，卡尔•弗里德 
里克 

Hinrichs ， Klaus Helmer 欣里彻斯，克劳斯•赫尔默 
Hinterberger , Hans 欣登贝格，汉斯 
Hinton ， Charles Howard 欣顿，查尔斯•霍华德 
Hoare ， Charles Antony Richard 霍尔，查尔斯•安托尼 
•理查德 

Hobby,John Douglas 霍比，约翰•道格拉斯 

Hoey , Daniel J. 雷伊，丹尼尔 - J 

Holberton , Frances Elizabeth Snyder ， 霍尔伯顿，弗朗 

西斯，伊丽莎白•斯奈德 
Hollerith , Herman 霍勒里特，赫尔曼 
Holt Hopfenberg ， Anatol Wolf 霍尔特•霍普芬伯格， 

阿纳托尔•沃尔夫 
Homer 霍默 

Homogeneous polynomial 齐次多项式 
Hooker , William Weston 胡克，威廉•韦斯顿 
Hooking-up of queues 队的钩接 
Hooks 钩 

generalized 扩充 61 钩 

Hopcroftjohn Edward 霍普克罗夫特，约翰•爱德华 



人名和术语中英对照表 


Hoshi ， Mamoru 星守 

Hosken , James Cuthbert 霍斯金，詹姆斯•卡恩伯特 

Hot queues 热队 

Hsu , Meichun 许玫君 

Hu，Te Chiang 胡德强 

Hu-Tucker algorithm 胡-塔克算法 

Huang Bing-Chao 黄秉超 

Hubbard ， George Underwood 哈巴德，乔治•安德伍 

德 

Huddleston , Charles Scott 赫德勒斯顿，查尔斯•斯戈 

特 

Huffman , David Albert ， trees 赫夫曼，戴维•阿尔伯特 

树 

Human-computer interaction 人机交互 

Hunt,Douglas Hamilton 亨特，道格拉斯•汉密顿 

Hurwitz , Henry 赫维茨，亨利 

Hwang，Frank Kwangming 黄光明 

Hwang ， Hsien-Kuei 黄显贵 

Hyafil,Laurent Daniel 海亚菲尔，劳伦特•丹尼尔 

Hybrid-searching methods 混合查找方法 

Hybrid sorting methods 混合排序方法 

Hypercube ， linearized 线性化的超立体 

Hypergeometric functions 超几何函数 

Hyphenation 破折号 

Hysterical B-trees 歇斯底里的 B - 树 

IBM 701 computer IBM 701 计算机 

IBM 705 computer IBM 705 计算机 

IBM Corporation IBM 公司 

IBM RS/6000 computer IBM RS/6000 计算机 

I dempotent laws 等幕律 

Identifier ： A symbolic name in an 标识符 •• 在一^个代 

数语言中的一个符号名 

algebraic language 
Identity element 单位兀 
Implicit data structures 含蓄的数据结构 
In the past 在过去，见 Persistent data structures 

Inakibit-Anu of Uruk 乌鲁克的艾娜基比特-安奴 
Incerpi，Janet Marie 英塞尔比，珍妮特玛丽 
Inclusion-exclusion principle 容斥原理 


Inclusion of sets 集合的包含 
I inclusive queries 包含查询 

Incomplete gamma function y {a y z ) 不完备的伽玛 
函数 7(a,z) 

Increasing forests 递增的森林 

Independent random probing 独立的随机探测 

Index keys for file partitioning 文件分划的索引键码 

Index of a permutation 一 个排列的下标 

Index to this book 本书的索引 

Indexed-sequential files 带索引的顺序文件 

Infinity 无穷大 

as sentinel 作为标志的无穷大 
Information retrieval 信息检索 
Information theory 信息论 

lower bounds from 来自信息论的下界 
Inner loop 内循 环：其 指令的执行要比相邻部分要 
频繁得多的一个程序部分，见 Loop optimization 
Insertion 插人：加人新的项 

into a 2-3 tree 加人一 * 个新的项到一棵 2 - 3 树 

into a B-tree 加人一个新的项到一棵 B 树 

into a balanced tree 加人一个新的项到一^棵平衡 

树 

into a binary search tree 加人一 ^ 个新的项到一^棵二 

叉查找树 

into a digital search tree 加人一个新的项到一棵数 

字查找树 

into a hash table 加人一个新的项到一棵散列表 
into a heap 加人一个新的项到一个堆 
into a leftist tree 加人一个新的项到 一 棵左倾树 
into a trie 加人一个新的项到一个检索结构 

into a weight-balanced tree 加人一 ^ 个新的项到一 

棵权平衡树 

Insertion sorting 插人__序 
Interblock gaps 块间间隔 

Interqalation product of permutations 排歹 1 J 的插人积 
Interchanging blocks of data 交换数据块区 
Internal( branch) node 内部（分支）节点，见 Extended 
binary tree 

Internal path length 内部通路长度 

generating function for 内部通路长度的生成函数 
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人名和术语中英对照表 


Internal searching 内部查找 
summary 内部查找小结 
Internal sorting 内部排序 
summary 内部排序小结 
Internet 互联网 
Interpolation search 内插查找 
Interval-exchange sort 区间交换排序 

Interval heap 区间堆 
Intervals 区间 

Inverse in a group 一个群中的逆 
Inverse modulo m 模 m 之下的逆 
Inverse of a permutation 一 个排列的反序 
for multisets 作为多重集合的排列的反序 

Inversion tables of a permutation 一^个排列的反序表 
Inversions of a permutation 带有相等的一 ^ 个排列的 

反序 

with equality 一 个排列的反序 
Inversions of tree labelings 树标号的反序 
Inverted files 反序文件 
Involution coding 卷积编码 
Involutions 卷积 
Isaac ， Earl J 伊萨克，厄尔 • J 
Isaiah son of Amoz 伊赛雅，阿莫兹之子 
Isbitz, Harold 伊斯比兹，哈罗德 

Isidorus of Seville, Saint(San Isidoro de Sevilla ) 塞维 

利亚的圣 • 伊西多拉斯（圣 • 伊西多罗 • 德•塞维 
拉） 

Ismail ， Mourad El Houssieny 伊斯梅尔，毛拉德•厄尔 

•豪斯雪尼 

Isomorphic invariants 同构不变量 
Isomorphism testing 同构测试 

Itai , Alon 伊泰•艾隆 

Iverson ， Kenneth Eugene 艾弗森，肯尼特•尤金 


JACH : Journal of the ACM ， a publication of the Asso¬ 
ciation for Computing Machinery since 1954 

1954 年以来计算机器协会的一个刊物 
Jacobi ， Carl Gustav Jacob ，雅各比，卡尔 • 吉斯塔夫 • 

雅各布 

Jacquet , Philippe Pierre 雅奎特，菲利普•皮埃尔 


JAE(Jump if rA even) JAE ( 如果 rA 为偶数则跳转） 

Jainism ( 印度的）那数 
J anson ， Carl Svante 简森，卡尔•斯万特 
JADQump if rA odd) JAO ( 如果 rA 为奇数则跳转） 

Jensen,Johan Ludvig William Valdemar 詹森，约翰， 

鲁德维格 • 威廉•瓦尔德马尔 

John, John Welliaveetil 约梅，约翰•威里亚维蒂尔 
Johnsen ， Robert Lawrence 约翰逊，罗伯特•劳伦斯 
Johnsen ， Thorstein Lunde 约翰逊，索尔斯坦•伦德 
Johnson ， Lyle Robert 约翰逊，莱尔•罗伯特 
J ohnson ， Selmer Martin 约翰逊，塞尔默•马丁 
J ohnson ， Stephen Curtis 约翰逊，斯蒂芬•柯蒂斯 
J ohnson ， Theodore J oseph 约翰逊，西奥多•约瑟夫 

Joke 玩笑 

Jonassen ， Arne Tormod 乔纳森，阿恩•托莫德 
Josephus ， Flavius ， son of Matthias 约瑟夫斯，弗雷维 

厄斯，马特蒂亚斯的儿子 
problem 约瑟夫斯问题 
Juille,Hugues Rene 朱尔利，休古斯•里尼 
Jump operators of MIX MIX 的跳转操作符 
k_d trees k~d M 


krd tries k~d 检索结构 


Kaas ， Robert 卡斯，罗伯特 


Kabbala 卡布巴拉 


Kaehler ， Edwin Bruno 


凯赫勒，埃德温•布鲁诺 


Kalai 凯莱•吉尔 

Kaman ， Charles Henry 卡曼，查尔斯•亨利 

Kant ， Immanuel 坎特，伊姆曼纽尔 

Kaplan , Ary eh 卡普兰，阿里耶 

Kaplan ， Haim 卡普兰，海姆 

Karlin ， Anna Rochelle 卡林，安纳•罗谢尔 

Karp ， Richard Manning 卡普，理查德•曼宁 

Katajainenjyrki Juhani 卡塔贾依能，伊尔基•朱哈尼 

Kaufman ， Marc Thomas 考夫曼，马克•托马斯 

Kautz ， William Hall 考茨，威廉•霍尔 

Kececioglu , John Dmitri 基西希奥格鲁，约翰•德密特 


里 

Kelly, Wayne Anthony 凯利，韦恩•安托尼 

Kemp ， Rainer 肯拍，莱因纳 

Kempner ， Aubrey John 肯拍纳，奥布里•约翰 
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Kerov,Sergei Vasilievich 克洛夫，基尔盖•瓦西里耶 

维奇 

Keys 键码 
Keysorting 键码排序 

Khizder ， Leonid Abramovich 凯泽德尔，利奥尼德•阿 

布拉莫维奇 

Kingston,Jeffrey H. 金斯顿，杰弗里 .H 

Kipling, Joseph Rudyard 基普林，约瑟夫•拉迪亚德 

Kircher ， Athanasius 柯切尔，阿塔纳修斯 

Kirchhoff ， Gustav Robert ， first law, 柯希霍夫，古斯 

塔夫•罗伯特第一定律 

Kirkman ， Thomas Penyngton 柯克曼，托马斯 •彭宁 

顿 

triple systems 柯克曼三元组系统 
Kirkpatrick,David Galer 柯克帕特里克，戴维•盖勒 
Kirschenhofer, Peter 克斯成霍弗，彼得 
Kislitsyn ， Sergei Sergeevich 基斯里特辛，塞盖•塞盖 
耶维奇 

Klarner,David Anthony 克拉 尔纳 . 戴维•安托尼 
Klein,Christian Felix 克莱因，克里斯蒂安•菲利克斯 
Kiein , Rolf 克莱因，罗尔夫 

Kleitman ， Daniel J (Isaiah Solomon ) 克莱特曼，丹尼 

尔 ( 伊塞雅 • 所罗门） 

Klerer ， Melvin 克莱尔，梅尔文 
Knockout tournament 淘汰塞 
Knott ， Gary Don 克诺特，加里•唐 
Knuth , Donald Ervin 克努特，唐纳德 • 欧文（高德纳） 
Koch,Gary Grove 科克，加里•格罗夫 
Koester , Charles Edward 凯斯特勒，查尔斯•爱德华 
Kohler , Peter 科勒，彼得 
Kollar, Lubor 科尔拉，卢博尔 
Komlos , J anos 科姆罗斯，詹诺斯 
Konheim , Alan Gustave 康海姆，艾伦•古斯塔夫 
Koornwinder ， Tom Hendrik 科恩温德，托姆•亨德里 
克 

Korn ， Granino Arthur 科恩，格拉尼诺•阿瑟 
Korner , J anos 科恩纳，詹诺斯 
Kreweras ， Germain 克雷威拉斯，日尔曼因 
Kronecker, Leopold 克罗尼克尔，利奥博德 
Kronmal,Richard Aaron 克朗马尔，理查德•艾伦 


Kronrod , Mikhail Aleksandrovich 克朗罗德，米克海 
尔•阿列克山德罗维奇 

Krutar ， Rudolph Allen 克鲁塔，鲁道夫，艾伦 
Kruyswijk,Dirk 克鲁伊斯维克，迪克 
Kummer ， Ernst Eduard 库姆默，恩斯特•爱度华 
Kwan,Lun 伦关 

KWIC index 上下文中的键码索引 

La Poutre , Johannes Antonins( = Han), 拉 • 保德利， 

约翰尼斯 • 安托尼尤斯 （ = 汉） 

Labelle , Gilbert 拉贝勒，吉尔伯特 
Ladner，Richard Emil 拉德纳，理查德•埃密尔 
Laforest ， Louise 拉弗勒斯特，路易丝 

Lagrange ( = de la Grange) Joseph Louis, Comte, inver¬ 
sion formula 拉格朗日 （ = 德 • 拉 • 格朗日），约瑟 

夫 • 路易斯科姆特，反演公式 

Laguerre, Edmond Nicolas ， polynomials 拉奎尔，爱德 

蒙德•尼古拉斯多项式 

LaMarca , Anthony George 拉马尔加，安托尼•乔治 
Lambert,Johann Heinrich 拉姆伯特，约翰•亨利兹 
series 拉姆伯特序列 

Lampson ， Butler Wright 兰普森，巴特勒•赖特 
Landauer, Walter Isfried 兰德，利昂•约瑟夫 
Lander,Leon Joseph 兰多尔，沃尔特•艾斯弗里德 
Landis ， Evgenii Mikhailovich 兰迪斯，尤金尼•米克 

海伊罗维奇 

Langston , Michael Allen 朗斯顿，迈克尔•艾伦 
Lapko ， Olga Georgievna 拉普戈，奥尔加•乔吉耶夫 
纳 

Laplace( = de la Place), Pierre Simon, Marquis de 拉 

普拉斯（ = 德 • 拉 • 普拉斯），皮埃尔•西蒙马尔奎 
伊斯•德 

LARC Scientific Compiler LARC 科学编译程序 
Large deviations 大离差 

Largest-in-first-out ， 最大者先出，见 Priority queues 

Larson ， Per-Ake 拉尔森，拍-阿基 

Lascoux, Alain 拉斯科克斯•阿赖恩 

Last-come-first-served 后来先服务 

Last-in- first-out 后进先出 

Latency time 等待时间 
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Latin language 拉丁语 Library card sorting 图书馆卡片排序 


Lattice,of bit vectors 二进位向量的格 
of permutations 排列的格 
of trees 树的格 
lattice paths 格盘通路 
Lawler ， Eugene Leighton 劳勒，尤金•莱顿 
Lazarus, Roger Ben 拉扎勒斯，罗杰•本 
Least-recently-used page replacement 最近最少使用 

的页替换 

Least-significant-digit-first radix sort 最低有效位数 
字优先基数排序 

Leaves 叶 

Lee,Der-Tsai 李德财 
Lee, Tsai-hwa 李再华 
Leeuwen ， Jan van 刘文，简•万 

Leeuwen ， Marcus Aurelius Augustinus van 刘文，马库 

斯 • 奥里刘斯•奥古斯蒂奴斯 
Lefkowitz, David 列莫科维兹，戴维 

Left-to-right(or right-to-left)maxima or minima 自左 

向右（或自右向左)极大值或极小值 

Leftist trees 左倾树 

deletion from 从左倾树删去 
insertion into 插人到左倾树 
merging 合并左倾树 
Lehmer ， Derrick Henry 莱默，德里克 * 亨利 
Leibholz ， Stephen W olfgang 莱博霍尔兹，斯蒂芬•沃 

夫冈 

Leiserson ， Charles Eric 莱塞森，查尔斯•埃里克 
Levcopoulos , Christos 利夫科保罗斯•克里斯托斯 
Level of a tree node：The distance to the root 一个树 

节点的级 ：到根 的距离 

Levenshtein,Vladimir Iosifovich 利温斯坦，弗拉吉米 

尔•约西夫维奇 

Leveque , William Judson 勒维克，威廉•朱丹 

Levitt ， Karl Norman 利维特，卡尔•诺尔曼 

Levy ， Silvio Vieira Forreira 利维，西尔维奥•弗雷拉 

Lexicographic order 词典编辑顺序 

lg ： Binary logarithm lg :二进制对数 

Li Shan-Lan 李善兰 

Liang ， Franklin Mark 梁，富兰克林•马克 
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Liddy ， George Gordon 利迪，乔治•戈顿 

LIFO 后进先岀，见 Stacks 

Lin ， Andrew Damon 林，安德鲁•达蒙 

Lin , Shen 林牲 

Lineal chart 直系图 

Linear algorithm for median 求中值的线性算法 
Linear algorithms for morting 排序的线性算法 
Linear arrangements, optimum 最优线性安排 
Linear congruential sequence 线性同余序列 
Linear hashing 线性散列 
Linear lists 线性表，也见 List sorting 
representation of 线性表的表示 
Linear order 线性顺序 
Linear probing 线性探查 
optimum 最优线性探查 
Ling, Huei 林辉 
Linial, Nathen 利尼尔，纳森 
Linked allocation 链接分配 
Linn ， John Charles 林，约翰•查尔斯 
Lint ， Jacobus Hendricu van 林特，雅各布斯 * 亨德里 

库斯•万 

Lipski ， Witold,Jr. 小利普斯基，威托德 
Lissajous, Jules Antoine 利沙佐乌斯，朱里斯•安托伊 
尼 

List head 表头 
List insertion sort 表插人排序 
List merge sort 表合并排序 
List sorting 表排序 

Littlewood ， Dudley Ernent ，利特尔伍德，达德利•欧 
内斯特 

Littlewood John Edenson 利特尔伍德，约翰•伊登索 

Litwin,Samuel 利特文，萨缪尔 

Livius,Titus 利维亚斯，泰特斯 

Lloyd,Stuart Phinney 劳埃德，斯图尔特 * 芬尼 

Load factor 负载因子 

Load point 装人点 

Logan,Benjamin Franklin( - Tex) ， Jr. 洛根，本杰明 

•富兰克林 

Logarithmic search 对数查找 



人名和术语中英对照表 


Logarithms 对数 
discrete 离散对数 

Logg ， George Edward 洛格，乔治•爱德华 
Logical tape unit number 逻辑带设备号 
Long runs 长路段 

Longest common prefix 最长公共前缀 

Longest increasing subsequence 最长递增子序歹 1 J 

Longest match 最长匹配 

Loop optimization 循环优化 

Losers 失利者，失败者 

Louchard , Guy 洛查德，盖伊 

Lozinskii , Eliezer Leonid Solomonovich 洛津斯基，伊 

里泽尔 • 利奥尼德•所罗门诺维奇 
LSD : Least significant digit 最低位有效数字 
Lucas, Frangois Edouard Anatole 卢卡斯，弗朗索斯 • 

爱度华•安纳托尔 

Luczak , Tomasz J an 卢克扎克，托马斯泽•简 
Lueker ， George Schick 卢伊克尔，乔治•斯希克 
Luhn ， Hans Peter 卢恩，汉斯•彼得 
Lukasiewicz ， Jan 卢卡谢维茨，简 
Lum，Vincent Yu-sun 林耀燊 

Lynch, William Charles 林奇 . 威廉•查尔斯 
m -d tree ， m-d 树，见是 -d tree 

m-d trie ， m-d 检索结构，见 d trie 

Machiavelli, Niccolo di Bernardo 麦希亚维利，尼科罗 

• 迪•伯纳多 

MacLaren ， Malcolm Donald 麦克拉伦，马尔科姆•唐 

纳德 

MacLeod ， Lain Donald Graham 麦克劳德，伊安•唐纳 

德•格拉雷厄姆 

MacMahon ， Percy Alexander 麦克马洪， J 白西 • 阿历 

山大 

Master Theorem 麦克马洪主定理 
Macro language 宏语言 
Magic trick 魔法，魔术技巧 
Magnetic tapes 磁带 

reliability of 磁带的可靠性 
Magnus , Wilhelm 马格奴斯，威廉 
Mahmoud ， Hosam Mahmoud 马赫茂德，霍沙姆•马赫 

茂德 


Mahon ， Maurice Harlang( — Magenta) 马洪，莫里斯 • 

哈朗（二马根塔） 

Maier ， David 梅耶.戴维 

Majewski ， Bohdan Stanislaw 马杰斯基，博旦•斯坦尼 

斯劳 

Major index 主索引，见 Index 
Mallach，Efrem Gershon 马拉兹，埃弗雷姆•格尔维 
Mallows , Colin Lingwood 马洛斯，科林•林伍德 
Maly,Kurt 马里，库特 

Manacher ， Glenn Keith 马纳彻尔，格林•基思 
Maniac II computer 曼尼亚克 II 计算机 
Mankin,Efrem S 曼金，埃弗雷姆 
Mann ， Henry Bert hold 曼，亨利•伯索德 
Mannila,Heikki Olavi 曼尼拉，海克基•奥拉维 
Margoliash ， Daniel Joseph 马尔戈利亚斯，丹尼尔•约 

瑟夫 

Markov, Andrei Andreevich process 马尔科夫，安德 

烈 • 安德烈耶维奇，过程 

Marriage theorem 婚姻定理 

Marsaglia ， George 马萨格里亚，乔治 

Martin ， Thomas Hughes 马丁，托马斯•休斯 

Martinez Parra ， Conrado 马丁尼兹 • 帕拉，康拉多 

Marton ， Katalin 马顿，卡塔林 

Martzloff , Jean-Claude 马兹洛夫，吉恩 ■•克 劳德 

Mason ， Perry 梅森，佩里 

Match ， search for closest 查找最接近的匹配 

Matching 匹配 

Math. Comp ： Mathematics of Computation (I960-) ， a 
publication of the American Mathematical Society 
since 1965; founded by the National Research 
Council of the National Academy of Sciences under 
the original title Mathematical Tables and Other 

Aids to Computation (1943 — 1959) 1965 年以 

来美国数学学会的一种刊物 

Mathsort 数学排序 

Matrix : A two-dimensional array 矩阵：一^个二维数组 
representation of permutations 排歹 1 J 的矩阵表 7K 
searching in a 在 一 个矩阵中的查找 
transpose of a —^个矩阵的转置 
Matsunaga ， Yoshisuke 松永良弼 
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Matula, David William 马图拉，戴维•威廉 
Mauchly John William 莫茨利，约翰•威廉 
Maximum-and-minimum finding 寻找极大值和极小 
值 

Maximum finding 寻找极大值 

Me Allester , Robert Linne 麦卡勒斯特，罗伯特•林尼 
McAndrew,M.H. 麦卡安 德鲁％ M. H, 

McCabe John, 麦凯布，约翰 

McCall 9 s Cook Book 麦考尔的食谱 

McCarthy ， John 麦卡锡，约翰 

McCracken,Daniel Delbert 麦克拉肯 . 丹尼尔•戴尔 

伯特 

McCreight ， Edward Meyers 麦克赖特，爱德华•迈耶 
斯 

McDiarmid ， Colin John Hunter 麦克迪亚米德，科林 • 
约翰•汉特 

McGeoch , Catherine Cole 麦克基奥彻，卡特林•科尔 
Mcllroy,Malcolm Douglas 麦基尔罗伊，马尔科姆•道 
格拉斯 

Mcllroy ， Peter Martin 麦基洛尔罗伊，彼得•马丁 
McKellar ， Archie Charles 麦凯勒，阿尔奇•查尔斯 
McKenna, James 麦克纳，詹姆斯 
McNamee ， Carole Mattern 麦克纳米，卡罗里•马特 
恩 

McNutt ， Bruce 麦克纳特，布鲁斯 
Measures of disorder 混乱的量度 
Median 中间的 

linear algorithm for 求中间值的线性算法 
Median-of-three quickfind 三者取中的快速寻找 
Median-of-three quicksort 三者取中的快速排序 
Mehlhorn ， Kurt 梅尔霍恩，库特 
Meister,Bernd 梅斯特，伯恩德 
Mellin,Robert Hjalmar, transforms 梅林，罗伯特•赫 
贾尔马，转换 

Mendelson ， Haim 门德尔森，海伊姆 
Merge exchange sort 合并交换排序 
Merge insertion sort 合并插人排序 
Merge numbers 合并数 

Merge patterns ，合并模式，见 Balanced merge ， Cascade 
merge, Oscillating sort, Polyphase merge. 
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dual to distribution patterns , 对偶于分布模式 
for disks 磁盘的合并模式 
for tapes 磁带的合并模式 
optimum 最优合并模式 
summary 合并模式小结 
tree representation of 合并模式的树表示 
vector representation of 合并模式的向量表示 
Merge replacement sort 合并替换排序 

Merge sorting ; 合并排序，见 List merge , Natural 
merge ， Straight merge 

external 外部合并，见 Merge patterns 
Merge-until-empty strategy 合并直到成空策略 
Merging 合并 

々 -way A - 路合并 
networks for 合并的网络 
with fewest comparisons 通过最少比较的合并 
METAFONT METAFONT 系统，用于生成各种形 
式的字符 

METAPOST METAPOST 系统，用于生成图解的系 
统 

Meyer ， Curt 迈耶，柯特 

Meyer auf der Heide，Friedhelm 迈耶 • 奥夫 • 德•海 

德，弗里德海姆 
Middle square 平方取中 
Middle third 居中的三分之一 

Miles ， Ernest Percy ,Jr. 小迈尔斯，欧内斯特•珀西 
Miltersen,Peter Bro 米尔特森，彼得•布洛 
Minimax 极小极大值 
Minimean 极小均值 
Minimum average cost 极小平均费用 
Minimum-comparison algorithms 极小比较算法 
for merging 合并的极小比较算法 
for searching 查找的极小比较算法 
for selection 选择的极小比较算法 
for sorting 排序的极小比较算法 
Minimum path length 极小通路长度 
weighted 带权的极小通路长度 
Minimum-phase tape sorting 极小状态带查找 
Minimum-space algorithms 极小空间算法 
for merging 合并的极小空间算法 
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for rearranging 重新安排的极小空间算法 
for selection 选择的极小空间算法 
for sorting 排序的极小空间算法 
for stable sorting 稳定排序的极小空间算法 
Minimum-stage tape sorting 极小阶段磁带排序 
Minimum-time algorithms 极小时间算法 
for merging 合并的极小时间算法 
for sorting 排序的极小时间算法 
Minker，Jack 明克尔，杰克 
MinuteSort 一 分钟排序算法 
Mises,Richard,Edler von 米塞斯，理查德•埃德勒 
Misspelled names 拼借的名字 
Mitchell ， Oscar Howard 米特彻尔，奥斯卡•霍华德 
MIX computer : A hypothetical machine defined in Sec¬ 
tion 1.3 MIX 计算机 

MIXAL ： The MIX assembly language MIXAL ： MIX 
的汇编语言 

MIXT tape units MIXT 带设备 

MIXTEC disks and drums MIXTEC 磁盘和磁鼓 

Miyakawa ， Masahiro 宫川正弘 

Mobius,August Ferdinand, 莫比乌斯，奥古斯特•费 

迪南德 

function〆 /!) 莫比乌斯函数 
Modified external path length 修改的外部通路长度 
Moffat ， Alistair 莫法特，阿里斯太尔 
Molodowitch ， Mariko 莫洛多维奇，马里戈 
Monotonic subsequences 单调子序列 
Monotonicity property 单调性的性质 
Monting 芒廷，见 Schulte Monting 
Moore，Edward Forrest 穆尔，爱德华•福雷斯特 
Moore School of Electrical Engineering 穆尔电器工程 

学校 

Morgen thaler ， John David 莫根撒勒，约翰•戴维 
Morris ， Robert 莫里斯，罗伯特 
Morrison , Donald Ross 莫里森，唐纳德•罗斯 
Morse ， Samuel Finley Breese ， code 莫尔斯，基缪尔 • 

芬利•布鲁斯代码 

Mortenson ， John Albert 莫顿森，约翰•阿尔伯特 
Moser ， Leo 莫泽，利奥 

Mostsignificant-digit-first radix sort 最髙有效位数 


字优先基数排序 

Motzkin , Theodor Samuel 莫茨金，西奥多•基缪尔 
Move-to-front heuristic 移动到前边带启发式的 
MSD : Most significant digit 最高有效位数字 
Muir ， Thomas 米尔，托马斯 
Mullin，James Kevin 马林，詹姆斯，克文 
Multi-attribute retrieval 多属性检索，见 Secondary 
key retrieval 

Multidimensional binary search trees 多维二叉查找 
树，见 k-d trees 

Multidimensional tries 多维检索结构，见 tries 
Multihead bubble sort 多头气泡排序 
Multikey quicksort 多键码快速排序 
Multilist system 多表系统 
Multinomial coefficients 多项式系数 
Multiple list insertion sort 多表插入排序 
Multiple- precision constants 多精度常数 
Multiples of an irrational number mod 1 一个无理数 

在 1 之下模的多重性 

Multiprecision comparison 多精度比较 
Multiprocessing 多道处理 
Multireel files 多卷筒文件 

Multiset 多重集 合 : 类 似于一个集合，但元素可出现 
一 次以上 

ordering 对多重集合排顺序 
permutations 多重集合的排列 
sum and union 多重集合的和与并 
Multivalued logic 多值逻辑 
Multiway trees 多路树，也见 Tries 
Multiword keys 多字键码 
Munro, James Ian 芒罗，詹姆斯•伊恩 
Muntz, Richard 穆恩茨，理查德 
Muroga ， Saburo 室贺三郎 
Music 音乐 

Musser ， David Rea 墨基尔，戴维•里亚 

Myers ， Eugene Wimberly ， J r 小迈耶斯，尤金•温贝利 

Nagler ， Harry 纳格勒，哈里 

N akayama ， T adasi 中山正 

Naor,Simeon( — Moni) 纳俄，西米昂 （ = 莫尼） 
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Narasimhan ， Balasubramanian 拉西姆罕 * 巴拉舒布 

拉马尼安 

Natural correspondence between forests and binary trees 

树林与二叉树之间的自然对应 

Natural merge sort 自然合并排序 
Natural selection 自然选择 
Nearest neighbors 最接近的邻居 
Needle 针 

Negative links 负的链接 

Neighbors of a point 一 ^ 个点的邻居 

Neimat ， Marie-Anne Kamal 内马特，马里 - 安尼 •卡马 

尔 

Nelson ， Raymond John 纳尔逊，雷蒙德•约翰 
Netto, Otto Erwin Johannes Eugen 内特托，奥托•欧 

文 • 约翰尼斯•尤金 

Networks of comparators ， 比较器的网络 
for merging 用于 合并的比较器网络 
for permutations 用于排列的比较器网络 
for selection 用于选择 的比较器网络 
for sorting 用于排序 的比较器网络 
primitive 原始的比较器网络 
standard 标准比较器网络 

with minimum delay 具有极小延迟的比较器网络 
Networks of workstations 工作站网络 
Neumann,John von( = Margittai Neumann Janos) 诺 

伊曼，约翰 • 冯（ = 玛奇特泰 • 诺依曼 • 贾诺斯） 

Newcomb ， Simon 纽科姆，西蒙 

Newell ， Allen 纽厄尔，阿伦 

Newman ， Donald Joseph 纽曼，唐纳德•约瑟夫 

Nielsen, Jakob 尼尔森 • 雅各布 

Nievergelt,Jurg 尼弗格尔特，朱尔格 

Nijenhuis, Albert 尼詹休斯，阿尔伯特 

Nikitin ， Andrei Ivanovich 尼基廷，安德烈•伊凡诺维 

奇 

Nitty-gritty 事情的真相，本质 
Nodine ， Mark Howard 诺迪尼，马克•霍华德 
Non- messing- up theorem 无 、混舌 L 定理 
Nondeterministic adversary 不确定的对手 
Norlund,Niels Erik 诺伦德 • 奈尔斯•埃立克 
Normal deviate 标准离差 
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Normal distribution , approximately 近似的正态分布 

Norwegian language 挪威语 

Noshita , Kohei 野下浩平 

Notations , index to 记号索引 

Novelli , Jean-Christophe 诺维利，吉恩-克里斯托弗 

NOW-Sort NOW - 排序 

NP-complete problems NP - 完全问题 

Nsort N 排序 

Null permutation 空排列 

Number-crunching computers 咬嚼数字的计算机 

Numerical instability 数值的不稳定性 

Nyberg , Christopher 奈伯格，克里斯托弗 

Oberhettinger ， Fritz 奥伯赫特廷格尔，弗里茨 

Oblivious algorithms 漠视算法 

O’Connor，Daniel J. 奥康纳尔，丹尼尔 

Octrees 八叉树 

Odd-even merge 奇偶合并 

Odd-even transposition sort 奇伪转量排序 

Odd permutations 奇排列 

Odell ， Margaret K 奥德尔，玛格丽特 

Oderfeld Jan 奥德尔菲尔德，简 

Odlyzko ， Andrew Michael 奥德里兹戈，安德烈•迈克 

尔 

Oettinger ， Anthony Gervin 马特廷格尔，安托尼•杰 

尔文 

Oldham J effrey David 奥尔德罕，杰弗里•戴维 
Olivie , Hendrik Johan 奥里维，亨德里克•约翰 
Olson ， Charles A. 奥尔森，查尔斯 *A 
Omega network 欧米茄网络 
One-sided height-balanced trees — ^ 边高度平衡树 
One-tape sorting 一条带排序 
O’Neil ， Patrick Eugene 奥奈尔，帕克里克•尤金 
Ones’ complement notation —^列补码的记号 
Online merge sorting 联札合并排序 
Open addressing 开式寻址 
optimum 最优开式寻址 
Operating systems 操作系统 
Optimization of loops 循环的优化 
Optimization of tests 测试的优化 
Optimum binary search trees 最优二叉查找树 
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Optimum digital search trees 最优数字查找树 

Optimum exchange sorting 最优交换排序 

Optimum linear arrangements 最优线性安排 

Optimum linear probing 最优线性探查 

Optimum linked trie 最优链接检索结构 

Optimum merge patterns 最优合并模式 

Optimum open addressing 最优开式寻址 

Optimum permutations 最优排歹 ll 

Optimum polyphase merge 最优多阶段合并 

Optimum searching 最优查找 

Optimum sorting 最优排序 

0R(bitwise or) OR' ( 按二进位的或）运算 

Order ideals 次序理想 

Order relations 次序关系 

Order statistics 次序统计 

Ordered hashing 顺序的散列 

Ordered partitions 顺序的分划 

Ordered table,searching an 查找一^个顺序表 

Ordering of permutations 排列的顺序 

Organ-pipe order 风琴管次序 

Oriented trees 有向树 • 

Orosz ， Gabor 奥罗斯泽，加博尔 
O’Rourke ， Joseph 奥罗尔克 • 约瑟夫 
Orthogonal range queries 正交范围查询 
Oscillating radix sort 振荡基数排序 
Oscillating sort 振荡排序 
Overflow, arithmetic 算术溢出 
in B-trees B 树中的溢出 
in hash tables 散列表中的溢出 
Overmars ， Markus ( 二 Mark) Hendrik 奥弗尔马斯，马 

尔库斯 （ = 马克）亨德里克 

Own coding 特种编码 

P-way merging P 路合并 
Packing 包装 
Paging 分页 
Pagodas 塔 

Paige ， Robert Allarr —^ 派格，罗伯特•阿拉尔 
Painter,James Allan 佩因特，詹姆斯•阿伦 
Pairing heaps 双堆 


Pak, Igor Markovich 帕克，伊呆尔•马科维奇 
Palermo,Frank Pantaleone 佩勒莫，弗朗克•潘塔里 

昂 

Pallo , J ean Marcel 帕尔罗，吉恩•马基尔 

Panny,Wolfgang Christian 三番尼，沃尔弗岗•克里 

斯蒂安 

Papernov, Abram Alexandrovich 佩拍诺夫，阿布兰 • 

阿历山德洛维奇 

Pappus of Alexandria 阿历山德里亚的帕普斯 
Parallel processing 并行处理 
merging 合并并行处理 
searching 查找并行处理 
sorting 排序并行处理 
Parberry , Ian 帕贝利，伊恩 
Pardo 帕多，见 Trabb Pardo 
Pareto ， Vilfredo 帕里多，维尔菲里多 
Pareto distribution 帕里多分布 
Parker ， Ernest Tilden 帕克，欧内斯特•蒂尔登 
Parkin ， Thomas Randall 帕金，托马斯•兰道尔 
Parking problem 停车问题 
Parsimonious algorithms 吝裔的算法 
Partial match retrieval 部分匹配检索 
Partial ordering 偏序 

of permutations 排序的偏序 
Partition-exchange sort 分划一交换排序 
Partitioning a file 划分一个文件 
into three blocks 划分成三个块 
Partitions of a set 一 个集合的分划 
Partitions of an integer — ^ 个整数的分划 
ordered 次序的分划 
plane 平面的分划 
Patashnik ， Oren 帕塔什里克，奥伦 
Patents 专利杂志 

Paterson ， Michael Stewart 帕特森，米歇尔•斯图尔特 
Path length of a tree 一 ^ 棵树的通路长度，见 External 
path length,Internal path length 

minimum 极小通路长度 

— 1 — 

weighted 加权通路长度 

weighted by degrees 通过度来加权的通路长度 
Patricia 一^种特殊的树结构 
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Patt ， Yale Nance 帕特，耶尔•南斯 
Pattern matching in text 文中的模式匹配 
Patterson , David Andrew 帕特森，戴维•安德鲁 
Patterson,George William 帕特森，乔治•威廉 
Pentagonal numbers 五边形数 
Percentiles 百分位数，见 Median 
Perfect balancing 完全的平衡 
Perfect distributions 完全的分布 
Perfect hash functions 完全的散列函数 
Perfect shuffles 完全的洗牌 
Perfect sorters 完全的排序程序 
Periodic sorting network 周期的排序网络 
Perl ， Yehoshua 佩尔，耶霍舒亚 
Permanent 永久的 
Permutahedron 排列晶面体 
Permutation in place 就地排列 
Permutation networks 排列网络 
Permutations 排列 
2-ordered 二阶排列 
cycles of 排列的循环 
enumeration of 排列的枚举 
even 偶排列 

factorization of 排列的因式分解 
fixed points of 排列的不动点 
indexes of 排列的下标 
intercalation product of 排列的插人 
inverses of 排列的逆 

inversions of 排列的反序，见 Invension tables ， Inver¬ 
sions 

lattice of 排列的格 

matrix representations of 排列的矩阵表 7K 
of a multiset 一 个多重集合的排列 
optimum 最优排列 
partial orderings of 排列的偏序 
pessimum 悲观的排列 
readings of 排列的阅读 
runs of 排列的路段 
signed 带符号的排列 
two-line notation for 排列的两行记号 
Persistent data structuren 持久的数据结构 


Perturbation trick 混乱的技巧 

Pessimum binary searel trees 悲观列二叉查找树 

Peter,Laurence Johnston principle 彼得，劳伦斯 •约 

翰斯通原理 

Peterson , William Wesley 彼得森 ，威廉•威韦斯利 
Petersson , Ola 彼得森，奥拉 

Pevzner ， Pavel Arkadjevich 佩夫泽纳尔，佩维尔•阿 

尔加德杰维奇 

Peyster,James Abercrombie de, Jr. 小彼斯特，詹姆 

斯 • 阿贝尔克隆比•德 

Philco 2000 computer 菲尔科 2000 计算机 

Picard ， Claude Francois 皮卡德，克劳德•弗朗索伊斯 

Ping-pong tournament 兵兵球锦标赛 

Pinzka ， Charles Frederick 平兹卡，查尔斯•弗雷德里 

克 

Pipeline computers 流水线计算机 

Pippenger，Nicholas John 彼普彭格尔，尼古拉斯•约 


Pitfalls 陷井，圈套 

Pittel ， Boris Gershon 彼特尔，波利斯•杰尔松 
PL/I language PL/1 程序语言 
Plane partitions 平面分划 
Plankalkiil 普兰卡尔库尔 

Plaxton ， Charles Gregory 普拉克顿，查尔斯•格里戈 

里 

Playing cards 扑克牌 

Pliicker,Julius 普拉克尔，朱利尤斯 

Poblete Olivares ， Patricio Vicente 坡布勒特•奥利瓦 

利斯，帕特里西奥•维森特 
Pocket sorting 容器排序，桶排序 
Podderjugin，Viktor Denisowitsch 彼德尔朱金，维克 

多•德尼索维特兹 

Pohl ， Ira Sheldon 波尔，艾拉•谢尔登 
Pohlig ， Stephen Carl 波立格，斯蒂芬•卡尔 

Point quadtrees 点四叉树 

Poisson ， Simeon Denis ， distribution 泊松，西来恩•丹 

尼斯分布 

transform 泊松变换 
Polish prefix notation 波兰前缀记号 
Pollard,John Michael 波拉德 • 约翰•迈克尔 
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人名和术语中英对照表 


Polya , Gy orgy ( = George) 波利亚，乔治 
Polygons ， regular 正规的多边形 
Polynomial arithmetic 多项式算术 
Polynomial hashing 多项式散列 
Polyphase merge sorting 多阶段合并排序 
Caron variation 卡伦形式的多阶段合并排序 
optimum 最优多阶段合并排序 
read- backward 向后读多阶段合并排序 
tape- splitting 多阶段合并排序带的分开 
Polyphase radix sorting 多阶段基数排序 
Pool , Jan Albertus van der 普尔，简 • 阿尔伯特斯 • 厄 • 

德 

Pool of memory 存储池 
Poonen ， Bjorn 普能，布约恩 
Porter ， Thomas K 波特，托马斯 
Post office 邮局 
Post-office trees 邮局树 
Posting 置入，见 Insertion 
Pouring liquid 倾注液体 

Power of merge 合并的能力，见 Growth ratio 

Powers ， James 鲍尔斯，詹姆斯 
Pratt ， Richard Don 普拉特，理查德•顿 
Pratt , Vaughan Ronald 普拉特，沃恩•罗纳德 
sorting method 普拉特排序方法 
Prediction 预测，见 Forecasting 
Preferential arrangements 优先安有有 
Prefetching 预取 

Prefix 前缀 
Prefix code 前缀码 

for all nonnegative integers 对于所有非负整数的 

预取码 

Prefix search 前缀查找，见 Trie search 

Preorder merge 前根顺序合并 

Prestet, Jean 普雷斯提特，琼 

Prime numbers 质数，素数 

Primitive comparator networks 本原排序网络 

Principle of optimality 最优性原理 

Pring，Edward John 普林，爱德华•约翰 


Priority queues 优先队 
merging 合并优先队 
Priority search trees 优先查找树 
Probability density functions 概率密度函数 
Probability distributions 概率分布 

beta 卩概率分布 
binomial 二项式概率分布 
fractal 分数概率分布 
normal 正态概率分布 
Pareto 概率分布 
Poisson 泊松概率分布 
random 随机概率分布 
uniform 一^致概率分布 
Yule 尤利概率分布 
Zipf Zipf 概率分布 

Probability generating functions 概率生成函数 
Prodinger ， Helmut 普罗定格尔，赫尔默特 
Product of consecutive binomial coefficients 连续的 — ► 

项式系数的乘积 

Proof of algorithms 算法的证明 

Prusker,Francis 普鲁斯克尔，弗朗西斯 

Prywes , Noah Shmarya 普里威斯，诺亚•斯马里亚 

Pseudolines 虚拟线 

Psi function <Jj(z) 普赛函数 ip(z) 

Puech,Claude Henri Clair Marie Jules 普齐，克劳德 • 

亨利 • 克莱尔 • 玛丽•朱利斯 

Pugh, William Worthington,Jr. 小普格，威廉 • 沃特 

辛顿 

Punched cards 穿孔卡片 

q-multinomial coefficients q 多项式系数 
q-nomial coefficients q 项式系数 
q-series q 级数 

Quadrangle inequality 四边形不等式 
Quadratic probing 二次探查 
Quadratic selection 二次选择 
Quadruple systems 四兀组系统 
Quadtrees 四叉树 
Queries 查询 


Prins,Jan Fokko 普林斯，简•福克戈 
Priority deques 优先双队 


Questionnaires 调查表 
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人名和术语中英对照表 


Queues 队 
Quickfind 快速寻求 


median-of-three 三者取中的快速寻求 
Quicksort 快速排序 

binary 二进制快速排序，见 Radix exchange 
median-of-three 三者取中的快速排序 
multikey 多键码的快速排序 
with equal keys 带有相等键码的快速排序 


Rabbits 兔子 

Rabin ， Michael Oser 拉宾，迈克尔•奥塞 
Radix-2 sorting 基数 2 排序 
Radix exchange sort 基数交换排序 

with equal keys 带有相等键码的基数交换排序 
Radix insertion sort 基数插入排序 
Radix list sort 基数表排序 
Radix sorting 基数排序 

dual to merge sorting 与合并排序对偶的基数排序 
Radke ， Charles Edwin 拉德克，查尔斯•埃德文 
Raiha,Kari-Jouko 拉伊哈 • 加里-约戈 
Railway switching 铁路开关 
Rains, Eric Michael 拉因斯，埃里克•迈克尔 
Rais ， Bonita Marie 赖斯，博尼塔•马里 
Raman Rajeev 拉曼•拉吉夫 
Raman ， V enkatesh 拉曼，文卡提斯 
Ramanan,Prakash Viriyur 拉马南，普拉卡斯 • 威利 

尤尔 

Ramanujan Iyengar ， Srinivasa 拉马奴燕 • 埃因加尔， 
斯里尼瓦沙 

function Q(n) 拉马奴燕函数 Q(w) 

Ramshaw ， Lyle Harold 兰肖，利里•哈罗德 
Random data for sorting 用于排序的随机数据 
Random probability distribution 随机概率函数 
Random probing ， independent 独立的随机探查 
with secondary clustering 带有辅助丛集的随机探 
查 

Randomized adversary : An adversary that flips coins 

随机化的对手，投掷硬币的一个对手 

Randomized algorithms 随机算法 
Randomized binary search trees 随机二叉查找树 
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Randomized data structures 随机数据结构 

Randomized striping 随机去除 

Randrianarimanana ， Bruno 兰德里亚纳里马纳纳，布 

鲁诺 

Raney ， George 拉尼，乔治 
Range queries 范围查询 
RANK field RANK 字段 

Ranking 排列，见 Sorting 
Raver ， Norman 雷弗，诺尔曼 

Ravikumar,Balasubramanian 拉维库马尔，巴拉舒布 
拉马尼安 

Rawlings , Don Paul 劳令斯，顿•保罗 

Ray Chaudhuri ， Dwijendra Kumar 雷 • 曹度利，德维 

简德拉•库马尔 

Read-back check 向后读校验 
Read-backward balanced merge 向后读平衡合并 
Read-backward cascade merge 向后读级联合并 
Read-backward polyphase merge 向后读多阶段合并 
Read-backward radix sort 向后读基数排序 
Read-forward oscillating sort 向前读振荡排序 
Reading tape backwards 向后读带 
Readings of a permutation 一 个排列的读入 
Real-time applications 实时应用 
Rearrangements of a word 一 个字的重新安排，见 
Permutations of a multiset 
Rearranging records in place 就地重新安排记录 

Rebalancing a tree 重新平衡一棵树，也见 Reorganiz¬ 
ing 

Reciprocals 倒数 
Records 记录 

Recurrence relations, techniques for solving 解递归关 

系的技术 

Recurrence relations for strings 串的递归关系 
Recursion induction 递归归纳 
Recursion versus iteration 递归和迭代 
Recursive methods 递归方法 
Red-black trees 红-黑树 
Redundant comparisons 冗余比较 
Reed,Bruce Alan 里得，布鲁斯•艾伦 
Reference counts 访问计数 



人名和术语中英对照表 


Reflection networks 反射网络 

Regnier ， Mireille 里格奈尔，米勒利 

Regular polygons 正规多边形 

Reiner ， Victor Schorr 莱因纳，维克多•斯戈尔 

Reingold , Edward Martin 莱因戈尔德，爱德华•马丁 

Relaxed heaps 松弛堆 

Remington Rand Corporation 雷明顿 •兰 德公司 

Removal 撤消，见 Deletion 

Reorganizing a binary tree 重新组织 一 个 二叉树 

Replacement selection 替代选择 

Replicated blocks 重复的块（区组） 

Replicated instructions 重复指令 

Reservoir 水库 

Restructuring 重新构造 

Reversal of data 数据的反排 

Reverse lexicographic order 颠倒的词 典顺序 

Rewinding tape 重绕带 

Ribenboim ， Paulo 里本波伊姆，保罗 

Rice ， Stephan Oswald 赖斯，斯蒂芬•奥斯瓦德 

Richards,Ronald Clifford 理查德，罗纳德•克里弗德 

Richmond ， Lawrence Bruce 里兹蒙德，劳伦斯•布鲁 

斯 

Riemann , Georg Friedrich Bernhard ， integration 黎曼， 

乔治 • 弗雷德里奇•伯恩哈德黎曼积分 

Riesel , Hans Ivar 里塞尔，汉斯•埃瓦尔 

Right-threaded trees 右穿线的树 

Right-to-left (or left-to-right) maxima or minima 自右 

至左（或自左至右）的极大或极小 
Riordan ， John 赖尔登，约翰 
RISC computers 缩减指令系统计算机 
Rising ， Hawley 赖辛，霍利 
Rivest ， Ronald Linn 里夫斯特，罗纳德•林 
Roberts^David Caron 罗伯特，戴维•卡伦 
Robin Hood l^ashiilg 罗宾•霍德散列 
Robinson,Gilbert de Beauregard 鲁宾逊，吉尔伯特 • 

德•博罗加德 

Robson, John Michael 罗伯逊，约翰•迈克尔 
Rochester ， Nathaniel 罗伯斯特，纳撒尼尔 
Rodgers,William Calhoun 罗杰斯，威廉•卡尔霍恩 
Rodrigues ， Benjamin Olinde 罗德里戈斯，本杰明•奥 


林德 

Roebuck ， Alvah Curtis 罗巴克，阿尔瓦•柯蒂斯 
Rogers ， Lawrence Douglas 罗杰斯，劳伦斯•道格拉斯 
Robnert ， Hans 罗尼特，汉斯 
Rollett , Arthur Percy 罗勒特，阿瑟 • J 白西 
Rooks 鲁克斯 
Rose ， Alan 罗斯，阿伦 
Roselle , David Paul 罗塞尔，戴维•保罗 
Rosenstiehl ， Pierre 罗森斯提尔，皮埃尔 
Rosier , Uwe 罗斯特，乌维 
Rosser ， John Barkley 罗塞，约翰 • 巴克利 
Rost ， Hermann 罗斯特，赫尔曼 
Rotations in a binary tree 在一棵二叉树中的旋转 
double 双倍旋转 
single 单旋转 
Rotem ， Doron 罗登姆，多伦 

Rothe ， Heinrich August 罗瑟 ，海 因里希•奥古斯特 

Rouche , Eugene , theorem 鲁彻，尤金定理 

Roura Ferret,Salvador 劳拉 • 菲里特，萨尔瓦多 

Roving pointer 移动指针 

Rovner Paul David 罗夫纳 • 保罗•戴维 

Royalties , use of 特许权的用法 

Rubin , Herman 鲁宾，赫尔曼 

Rudolph , Lawrence Set 鲁道夫，劳伦斯•塞特 

Runs of a permutation —^ 个排列的路段 

Russell, Robert C 拉塞尔，罗伯特 

Russian roulette 俄罗斯轮盘赌 

Rustin ， Randall 拉斯丁 •兰达尔 

Sable ， Jerome David 萨拍尔，杰罗姆•戴维 

Sackman ， Bertram Stanley 萨克曼，伯特伦•斯坦利 

Sagan,Bruce Eli 萨根，布鲁斯•埃利 

Sager ， Thomas Joshua 萨杰尔，托马斯•乔舒亚 

Sagiv ， Yehoshua Chaim 萨吉夫，耶约斯华•查依姆 

Saks , Michael Ezra 萨克斯，迈克尔•埃泽拉 

Salveter ， Sharon Caroline 萨克维特，沙龙•卡罗林 

Salvy ， Bruno 萨尔维，布鲁诺 

Samadi , Behrokh 萨朱迪，贝洛克 

Samet ， Hanan 萨米特，哈南 

Samplesort 样品排序 
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人名和术语中英对照表 


Sampling 抽样 

Samuel , son of Elkanah 塞缪尔，埃尔卡纳的儿子 
Samuel , Arthur Lee 塞缪尔，阿瑟•李 
Sandelius ， David Martin 桑德里厄斯，戴维•马丁 
Sankoff ， David Lawrence 桑科夫，戴维•劳伦斯 
Sarnak , Neil Ivor 萨尔那克，奈尔•埃沃尔 
Sasson , Azra 萨松，阿泽拉 

Satellite information : Record minus key 附属信息：除 

键码之外的记录 

Satisfiability 满足性 

Saul , son of Kish 萨罗，基斯的儿子 

Sawtooth order 锅齿次序 

Sawyer , Thomas 索耶尔，托马斯 

SB- tree SB * •树 

SB-tree SB - 树 

Scatter storage 散列存储 

Schachinger, W erner 施查辛格，维尔纳 

Schaffer, Alejandro Alberto 萨菲尔，阿列詹德•阿尔 

伯特 

Schaffer,Russel Warren 萨菲尔，拉塞尔•沃伦 
Schay ， Geza ， Jr • 小萨伊，杰扎 
Schensted ， Craige Eugene 申施迪德，克雷德•尤金 
Scherk ， Heinrich Ferdinand 谢尔克，亨里奇•费迪南 
德 

Schkolnick ， Mario 施科尔尼克，马里奥 

Schlegel ， Stanislaus Ferdinand Victor 施莱格尔，斯坦 

尼斯劳斯 • 黄迪南德•维克多 
Schlumberger,Maurice Lorrain 施卢姆伯杰，莫里斯 * 
洛兰 

Schmidt,Jeanette Pruzan 施米特，吉恩尼特•普卢赞 
Schneider ， Donovan Alfred 施奈德尔，多诺万•阿尔 
弗雷德 

Schonhage , Arnold 舍恩哈德，阿诺德 
Schott ， Rene Pierre 索特，里尼•皮埃尔 
Schreier,Jozef 施赖尔，佐泽夫 
Schulte MontingJlirgen 舒尔特 • 芒廷，朱尔金 
Schur ， Issai ， function 舒尔，伊斯赛，函数 
Schiitzenberger , Marcel Paul 舒曾伯杰，马塞尔•保罗 
Schwartz ， Eugene Sidney 施瓦茨，尤金•悉尼 
Schwartz, Jules 施瓦茨，朱尔斯 


Scoville,Richard Arthur 斯科维尔，查德•阿瑟 
Scrambling function 爬树函数 
Search-and- insertion algorithm 查找和插入算法 
Searching 查找，见 External searching , Internal 
searching; Static table searching, Symbol table algo¬ 
rithms 

by comparison of keys 通过键码比较的查找 
by digits of keys 通过键码数字的查找 
by key transformation 通过键码转换的查找 
for closest match 对于最接近的匹配的查找 
for partial match 对于部分匹配的查找 
geometric data 查找几何数据 
history 关于查找的历史 

methods 查找方法，见 J3-trees, Balanced trees , Bi¬ 
nary search, Chaining, Fibonaccian search, Interpo¬ 
lation search, Open addressing, Patricia, Sequential 
search,Tree search,Trie search 

optimum 最优查找，也见 Optimum binary search 
trees, Optimum digital search trees 
parallel 并行查找 

related to sorting 同排序有关的查找 
text 文本查找 
two-dimensional 二维查找 
Sears , Richard Warren 西尔斯，理查德•沃伦 
Secant numbers 正割数 
Secondary clustering 二次丛集 
Secondary hash codes 辅助散列码 
Secondary key retrieval 辅键码查找 
Sedgewick ， Robert 塞奇维克，罗伯特 
Seeding in a tournament 在一个锦标赛中的种子选 

手 

Seek time 寻找时间 
Sefer Yetzirah 西费尔，耶乔拉 
Seidel , Raimund 赛德尔，耶蒙德 
Selection of t largest t 个最大的选择 

networks for 用于选择 f 个最大者的网络 
Selection of t th largest 选择第 z 个最大者 

networks for 用于选择第 i 个最大者的网络 
Selection sorting 选择排序 
Selection trees 选择树 
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人名和术语中英对照表 


Self-adjusting binary trees 自调整二叉树，见 Splay 
trees 

Self-inverse permutations 自 _ 反排列必清，见 Involu¬ 

tions 

Self-modifying programs 自修改程序 
Self-organizing files 自组织文件 

Selfridge, John Lewis 塞尔弗里奇，约翰•刘易斯 
Senko ， Michael Edward 森科，迈克尔•爱德华 
Sentinel 标志：放置在一个表中的一个特殊值，被设 
计来以便相伴随的程序容易地识别之 

Separation sorting 分开 汩 ㈣ 序 
Sequential allocation 顺序分配 
Sequential file processing 顺序的文件处理 
Sequential search 顺序查找 
Sets ， testing equality 测试集合是否相等 
testing inclusion 测试集合的包含关系 
Sevcik , Kenneth Clem 谢夫西克，肯尼思•克林 
Seward ， Harold Herbert 西华德，哈罗德•赫伯特 
Sexagesimal number system 十六进制数系 

Seymour ， Paul Douglas 谢伊莫尔，保罗•道格拉斯 
Shackleton ， Patrick 沙克尔顿，帕特里克 
Shadow keys 影像键码 
Shamir ， Ron 萨米尔，伦 

Shanks ， Daniel Charles 香克斯，丹尼尔•查尔斯 
Shannon ， Claude Elwood,Jr. 小香农，克劳德•埃尔 

伍德 

Shapiro,Gerald Norris 夏皮罗，杰拉德•诺里斯 
Shapiro ， Henry David 夏皮罗，亨里•戴维 
Shar ， Leonard Eric 沙尔，伦纳德•埃里克 
Shasha ， Dennis Elliott 夏沙，登尼斯•埃尔里约特 
Shearer ， James Bergheim 谢里尔，詹姆斯•伯格罕姆 
Sheil,Beaumont Alfred 谢尔，比奥里特•阿尔弗雷德 
Shell , Donald Lewis 谢尔，唐纳德•刘易斯 
Shellsort 谢尔排序 

Shepp ， Lawrence Alan 谢 _ ，劳伦斯•艾伦 
—Shemi^P Martin 谢尔曼，菲利普•马丁 
Shields ， Paul Calvin 西尔德斯，保罗■卡尔文 
Shift-register device 移动寄存器装置 
Shifted tableaux 移动的图表 

Shockley , William Bradford 肖克利，威廉•布雷德福 


德 

Sholmov , Leonid Ivanovich 肖尔莫夫，利奥尼德•伊 

凡诺维奇 

Shrairman ， Ruth 施拉伊尔曼，鲁恩 

Shrikhande , Sharadchandra Shankar 施里克汉德，萨 

拉德钱德拉•香卡尔 

Shuffle network 洗牌（搅混）网络 
Shuffling 洗牌（搅混） 

SICOMP : SIAM Journal on Computing , published by 
the Society for Industrial and Applied Mathematics 

since 1972 自 1972 年以来由工程和应用数学 
学会 （ SIAM ) 出版的导报 

Sideways addition 旁路加法 

Siegel , Alan Richard 西格尔，艾伦•理查德 

Siegel ， Shelby 西格尔，谢尔比 

Sifting 筛选，见 Straight insertion 

Siftup 筛选 

Signed-magnitude notation 带符号的量的记号 

Signed permutations 带符号的排列 

Silicon Graphics 0rigin2000 硅图形公司独创 2000 

计算机 

Silver ， Roland Lazarus 西尔弗，罗兰•拉扎勒斯 
Silverstein ， Graig Daryl 西尔弗斯坦，克拉伊格•达 
里尔 

Simon ， 1st van Gusztav 西蒙，伊斯特凡•古斯泽塔夫 

Simulation 模拟 

Singer , T heodore 辛格，西奥多 

Single hashing 单个散列 

Single rotation 单个转动 

Singieton , Richard Collom 辛格尔顿，理查德•科洛姆 
Sinking sort 陷人顺序，参见直接插人，见 Straight in¬ 
sertion 

Skew heaps 倾斜堆 
Skip lists 跳动表 

Slagle, James Robert 施拉格尔，詹姆斯•罗伯特 
SLB (shift left rAX binary) SLB (对于 rAX 寄存器的 

二进数进行左移） 

Sleator Daniel Dominic Kaplan 施里亚托，丹尼尔•多 

米尼克•卡普兰 

Sloane Neii James Alexander 斯隆，尼尔 • 詹姆斯，亚 
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人名和术语中英对照表 


历山大 

Shupecki Jerzy 斯拉佩克基，杰齐 

Smallest-in-first - out ， 最小的先出，见 Priority queues 

Smith, Alan Jay 史密斯，艾伦•杰伊 

Smith ， Alfred Emanuel 史密斯，艾尔弗雷德，伊曼纽 

尔 

Smith，Cyril Stanley 史密斯，西里尔•斯坦利 
Smith, Wayne Earl 史密斯，韦恩•厄尔 
Snow Job 扫积雪的工作 
Sobel ， Milton 索贝尔，米尔顿 
Sobel ， Sheldon 索贝尔，谢尔登 

SODA : Proceedings of the ACM-SIAM Symposia on 
Discrete Algorithms, inaugurated in 1990 自 1990 
年开始岀版的 ACM-SIAM 关于离散算法的讨论 
论文集 

Software 软件 

Solitaire( patience) 单人纸牌戏（美国称作耐心） 

Sort generators 排序生成程序 

Sorting (into order) 排序（排成顺序的），见 External 
sorting，Internal sorting，Address calculation sort¬ 
ing ,Enumenation sorting ， Exchange sorting ， inser¬ 
tion sorting ， Merge sorting ， Radix sorting ， Selection 
sorting 

adaptive 适配性程序 
by counting 通过计数排序 
by distribution 通过分布排序 
by exchanging 通过交换排序 
by insertion 通过插入排序 
by merging 通过合并排序 
by reversals 通过倒转排序 
by selection 通过选择排序 
history 排序的历史 
in O(N) steps 在 0(N ) 步内排序 
into unusual orders 排成非寻常的顺序 
methods ，排序的方法，见 Binary insertion sort ， 
Bitonic sort, Bubble sort, Cockail-shaker sort, Com¬ 
parison counting srot，Distribution counting sort, 
Heapsort, Interval exchange sort，List insertion 
sort，List merge sort ， Median-of-three, quicksort, 
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Merge e^change^ort, Merge insertion sort, Multi¬ 
ple list insertion sort, Natural merge sort ， Odd-even 
transposition sort ， Pratt sort ， Quicksort ， Radix ex¬ 
change sort, Radix insertion sort，Ralix list sort, 
Samplesort ， Shellsort，Straight insertion sort ， 
Straight merger sort ， Straight selection sort，Tree 
insertion sort，Tree selection sort，Two way inser¬ 
tion sort ; 也见 Merge patterns 
networks for 用于排序的网络 
optimum 最优网络 
parallel 并行网络 
punched cards 穿孔卡片排序 
related to searching 同查找有关的排序 

stable 稳定排序 
topological 拓扑排序 
two line arrays 两行数组排序 
variable-length string 可变长的串的排序 
with one tape 通过一^条带排序 
with two tapes 通过两条带排序 
Sos, Vera Turan Paine 索斯，维拉 • 特兰•帕尔尼 
Soundex 探测法 


Spacings 空隔，间隔 

Sparse arrays 稀疏数组 

Speedup 力口速，见 Loop optimization 

Spelling correction 拼写改正 

Sperner ， Emanuel ， lemma 斯伯纳，伊曼纽尔引理 

Splay trees 外展树 


Splitting a balanced tree 分开探平衡树 

Sprugnoli,Renzo 斯普鲁格诺里，伦佐 

Spruth ， Wilhelm Gustav Bernhard 斯普鲁恩，威廉•古 

斯塔夫•伯恩合德 

Spuler ， David Andrew 斯普勒尔，戴维•安德鲁 
SRB( shift right rAX binary) SRB (右移寄存器 rAX 

中的二进数） 

Stable sorting 稳定排序 
Stacks 找 

Stacy,Edney Webb 斯塔西，埃德尼•维布 

Stael-Holstein , Anne Louise Germaine Necker, Baronne 


de 斯塔耶尔 - 霍尔斯坦安妮 • 路易斯•杰曼尼科 
尔，巴伦•德 



人名和术语中英对照表 


Standard networks of comparators 比较器的标准网 

络 

Stanfel , Larry Eugene 斯坦菲尔，拉里•尤金 
Stanley , Richard Peter 斯坦利，理查德•彼得 
Stasevich, Grigory Vladomirovich 斯塔西维奇，格里 

戈利，弗拉多米罗维奇 

Stasko ， John Thomas 斯塔斯科，约翰•托马斯 
Static table searching 静态表查找 
Stearns , Richard Edwin 斯特恩斯，理查德•埃德温 
Steiner , Jacob 斯坦纳，雅各布 
Steiner triple systems 斯坦纳三元组系统 
Steinhaus ， Hugo Dyonizy 斯坦豪斯，雨果•戴奥尼齐 
Stepdowns 往下走 
Stevenson ， David 斯蒂文森，戴维 
Stirling,James 斯特林，詹姆斯 
approximation 斯特林近似 
numbers 斯特林数 

STOC : Proceedings of the ACM Symposia on Theory 
of Computing ， inaugurated in 1969 1969 年创刊 

的计算理论讨论会论文集 
Stockmeyer ， Paul Kelly 斯托克迈耶，保罗•凯利 
Stone ， Harold Stuart 斯通，哈罗德•斯图尔特 
Stop/start time 停止/开始时间 

Stoyanovskii, Alexander Vasil，evich 斯托亚诺夫斯 

基，阿历山大•瓦西列维奇 

Straight insertion sort 直接插人排序 
Straight merge sort 直接合并排序 
Straight selection sort 直接选择排序 
Stratified trees 分层树 

Straus,Ernst Gabor 施特劳斯，厄恩斯特•加博尔 
Strings：Ordered subsequences 串：有序的小序列，见 
Runs 

Strings : Sequences of items 串：项的序列 
recurrence relations for 串的递归关系 
sorting 对串排序 
Striping 条带 

Strong , Hovey Raymond,Jr. 小斯特朗，霍维•赖蒙德 
Strongly T-fifo trees 了-先进先出树 
Successful searches 成功的查找 X \ 

Sue,Jeffrey Yen 肖智仁 \ 、― - 


Suel,Torsten 舒尔，托尔斯登 
Sugito ， Y oshio 杉藤芳雄 
Sum of uniform deviates 均勾离差的和 
Summation factor 求和因子 

Sun SPARCstation SUN 公司 SPARC 工作站 

Superblock striping 超级块（区组）分条带 

Superfactorials 超阶乘 

Superimposed coding 叠加的编码 

Surnames ， encoding 对姓氏编码 

Sussenguth ， Edward Henry, Jr. 小萨森古思，爱德华 

•亨里 

/ 

Swierczkowski，Stanislaw Slawomir 斯 f 不切柯夫斯 

基，斯塔尼斯洛•斯拉沃米尔 
Swift, Jonathan 斯威夫特，乔纳森 
Sylvester , James Joseph 斯威尔斯特，詹姆斯•约瑟夫 
Symbol table algorithms 符号表算法 
Symmetric binary B-trees 对称二叉 B - 树 
Symmetric functions 对称函数 
Symmetric group 对称群，见 Permutations 
Symmetric order : Left subtree, then root, then right 

subtree 对称顺序：左小树，然后根，然后右子树 
Symvonis ， Antonios 辛姆沃尼斯，安托尼奥斯 
SyncSort SyncSort 排序算法 
Szekeres ， George 泽克勒斯，乔治 
Szemeredi Endre 斯泽默勒迪，恩德雷 
Szpankowski , Woj ciech 斯泽盘柯夫斯基，沃伊切彻 
T-fifo trees T 先进先出树 

strongly 强了先进先出树 
T- lifo trees T 后进先出树 
Tableaux 图表 
Tables 表格 

of numerical quantities 数值量表 
Tag sorting 标记排序，见 Keysorting 
Tail inequalities 尾部不等式 
T ainiter, Melvin 泰尼特•默尔文 
Takacs, Lajos 塔卡斯•拉乔斯 
T alagrand , Michel 塔拉格兰德，迈克尔 
Tamaki，Jearme Keiko 玉置惠子 
Tamari Dov 塔马里•多夫 
Tamminen , Markku 坦姆米能，马克库 
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人名和术语中英对照表 


Tan Kok Chye 陈国财 
Tangent numbers 正切数 

Tanner ， Robert Michael 坦纳尔，罗伯特•迈克尔 
Tanny,Stephen Michael 坦尼，斯希芬•迈克尔 
Tape searching 带的查找 
Tape splitting 带的分开 

polyphase merge 多阶段合算时带的分开 
Tapes 带，见 Magnetic tapes 
Tardiness 缓慢，拖延 
Tarj an ， Robert Endre 塔简，罗伯特•恩德利 
Tarter,Michael Ernest 塔塔尔，迈克尔•欧内斯特 
Taruijun 垂井淳 
Telephone directories 电话目录 
Tengbergen , Cornelia van Ebbenhorst 藤伯金，柯尼里 

亚 • 范•埃布本霍斯特 

Tennis tournaments 网球锦标赛 
Terabyte sorting 太拉 （ 10 12 ) 字节排序 
Ternary comparison trees 三叉比较树 
Ternary heaps 三叉堆 
Ternary trees for tries 检索结构的三叉树 
Terquem ， Olry 特奎姆，奥里 
Tertiary clustering 第三级丛集 
Testing several conditions 测试若干条件 

Teuhola,Jukka Ilmari 提欧霍拉，朱克卡•伊尔马里 

t e x t e x 系统 ( 本书作者开发的排版系统） 

Text searching 文本查找 

Theory meets practice 理论满足实践需求 

Thiel ， Larry Henry 蒂尔，拉里•亨利 

Thimbleby ， Harold William 蒂姆伯利比，哈罗德•威 

廉 

Thimonier ， Loys 蒂莫尼尔，罗伊斯 

Thorup ， Mikkel 托拉普，密克尔 

Thrall ， Robert McDowell 恩罗尔，罗伯特•迈克多维 

尔 

Threaded trees 穿线树 
Three-distance theorem 三距离定理 
Three-way radix quicksort 三格基数快速排序，见 
Multikeyquicksort 

Thue , Axel 瑟伊，阿塞尔 
trees 瑟伊树 
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Thumb indexes 出边标目 

Thurston, William Paul 瑟尔斯通，威廉•保罗 

Tichy ， Robert Franz 蒂齐，罗伯特•弗朗兹 

Tie-breaking trick 打破平局的技巧 

Ting-Tze Ching 丁子锦 

Tobacco 烟 

T ogetherness 在一 ^ 起性 

Tomlinson , Robert L. ， Jr. 小汤姆林森，罗伯特 .L 

Topological sorting 拓扑顺序 

Total displacement 总偏离 

Total order 全序 

Total variance 总方差 

Touchard，Jacques 塔查德，雅克 

Tournament 锦标赛 

Townsend Gregg Marshall 汤森德 • 格里格•马歇尔 
Trabb Pardo ， Luis Isidoro ，特拉布 • 帕多，路易斯•埃 
西多罗 

T racks 道 

Trading tails 尾部交易 
Transitive Law 传递律 
Transpose of a matrix 一 个矩阵的转置 
Transposition sorting 转置排序，见 Exchange sorting 
Treadway Jennifer Ann 特里德维，简尼夫尔•安 
Treaps 树堆 

Tree function T(z ) 树函数 
Tree hashing 树数列 
Tree insertion sort 树插入排序 
Tree network of processors 处理器网络 
Tree representation of algorithms 算法的树形表亦， 
见 Decision trees 

Tree representation of distribution patterns 分布模式 

的树形表示 

Tree nepresentation of merge patterns 合并模式的树 

形表示 

Tree search 树查找 

generalized 推广的树查找 
Tree selection sort 树选择排序 
Tree traversal 树遍历 
Trees 树 

Treesort 树排序，见 Tree selection sort,Heapsort 


人名和术语中英对照表 


Tribolet ， Charles Siegfried 特里博勒特，查尔斯•西格 
弗里德 

Trichotomy law 特里巧托米定律 

Tricomi ， Francesco Giacomo Filippo 特里柯米，弗朗 

西斯戈 • 吉亚柯莫•菲里波 

Trie memory 检索结构存储，见 Tries 
Trie search 检索结构查找 

Tries 检索结构 

binary 二分检索结构 

compressed 压缩检索结构 

generalized 广义检索结构 

multidimensional 多维检索结构 

optimum 最优检索结构 

represented as forests 表 7K 为森林的检索结构 

represented as ternary trees 表 7K 为三叉树的检索 

结构 

T ripartitioning 三分戈 ! J 
Triple systems 三兀组系统 
Triply linked trees 三重链接树 
Trotter, William Thomas 特罗特，威廉•托马斯 
Trousse , Jean-Michel 特罗斯，吉思-迈克尔 
Truesdell , Leon , Edgar 特鲁斯代尔，里昂 • 埃德加 
Truncated octahedron 截断的八边形 
T rybula , Stanislaw 特里布拉，斯坦尼斯劳 
Tucker, Alan Curtiss 塔克，艾伦•柯提斯 
Tumble instruction 滚进指令 
Turba ， Thomas Norbert 图尔巴，托马斯•诺尔伯特 
Turing, Alan Mathison 图灵，艾伦•马西森 
machine 图灵机 

T urski ， Wladyslaw 图尔斯基，乌拉迪斯洛 

Twain Mark( = Clemens , Samuel Lang home ) 特威恩 

• 马克（ = 克利门斯，萨缪尔 • 朗霍尔尼） 

Twin heaps 李生堆 
Twin primes 李生质数 

Two-line notation for permutations 排列的双行记号 

Two-tape sorting 双带排序 

Two-way branching 两路转移 

Two-way insertion sort 两路插入排序 

Two-way merging 两路合并 

Two’s complement notation 2 的补码表 7K 


U t (n) and U t (n) L^(n) 和 0 ^(?!) 函数 

Ullman ， ]effrey David 厄尔曼，杰弗里•戴维 

UltraSPARC computer Ultra 公司的 SPARC 计算机 

Underflow during deletions 删去时的下溢 

Uniform binary search 均勻的二分查找 

Uniform distribution 均勻分布 

Uniform probing ― ^ 致探查 

Uniform sorting 一 致排序 

Unimodal function 单模型函数 

UN I VAC I computer UN I VAC I 计算机 

UNIVAC El computer UNIVAC El 计算机 

UNI VAC LARC computer UNIVAC LARC 计算机 

Universal hashing 万能散列，普通散列 

UNIX operating system UNIX 操作系统 

Unreliable comparisons 不可靠的比较 

Unsuccessful searches 不成功的查找 

Unusual correspondence 非寻常的对应 

Updating a file 更新一个文件 

Uzgalis ， Robert 乌泽加里斯.罗伯特 

V,(^)and V t (n) 和 函数 

Vallee, Brigitte 沃里，布利吉特 

Van der Pool, J an Albertus 范 • 德 • 普尔，简•艾伯塔 

斯 

van Ebbenhorst Tengbergen，Gornelia 范•埃布本霍 

斯特 • 藤伯金，戈尼利亚 

van Emde Boas , Peter 范 • 埃姆登 • 博亚斯，彼得 
van Emden ， Maarten Herman 范 • 埃姆登，马尔登•赫 

尔曼 

van Leeuwen , Jan 范 • 刘文，简 

van Leeuwen , Marcus Aurelius Augustinus 范 • 刘文， 

马尔库斯 . 奥利刘斯•奥古斯蒂内斯 

van Lint ， Jacobus Hendricus 范 • 林特，雅各布斯•亨 

德里沙斯 

Van Valkenburg, Mac Elwyn 范 • 沃肯伯格，麦克•欧 

文 

Van Voorhis,David Curtis 范 • 沃勒斯，戴维•柯蒂斯 
van Wijngaarden,Adriaan 范 • 维固加尔登，艾德里安 
Vandermonde, Alexandre Theophile 范德蒙特，亚历 

山大•西奥菲尔 
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人名和术语中英对照表 


determinant 范德蒙德行列式 
Variable-length code 可变长代码 
Variable-length keys , searching for 用于查找的可变 

长键码 

Variable-length records 可变长 i 己录 
Variable-length strings ， sorting 变长字符串程序 
V ariance ， different notions of 变量的不 同记号 
Vector representation of merge patterns 合并模式的 

向量表示 

Velthuis,Frans Jozef 维尔瑟尤斯 • 弗朗斯•乔泽夫 

Venn , John Leonard 维恩，维翰•伦纳德 

Vershik ， Anatoly Moiseevich 维尔锡克，安纳托里•莫 

伊西维奇 

Viennot , Gerard Xavier 维诺特，杰加德•扎维尔 
Viola Deambrosis ， Alfredo 维奥拉 • 迪亚姆布罗西斯， 

阿尔弗雷多 

Virtual memory 虚拟存储器 

Vitter, Jeffrey Scott 维特尔，杰弗里 • 斯戈特（魏杰 

甫） 

von Mises ， Richard ， Edler 冯 • 米塞斯，理查德，埃德 

勒 

von Neumann ， John( 二 Margittai Neumann Janos 冯 • 

诺伊曼 • 约翰 （ = 玛奇特泰 • 诺伊曼 • 贾诺斯） 
VSAM VSAM ( 虚拟存储存取方法） 

Vuillemin，Jean Etienne 武伊尔勒明，琼•埃递恩尼 
V yssotsky ， Victor Alexander 维索特斯基，维克多•亚 
历山大 

W t (n) and W t (n) %(n ) 和 t(n ) 函数 

Wachs ， Michelle Lynn 沃彻斯，迈彻利•林 
Waks,David Jeffrey 威克斯，戴维•杰弗里 
Waksman ， Abraham 瓦克斯曼，亚布拉罕 
Walker ， Ewing Stockton 沃克，尤因•斯托克顿 
Walker, Wayne Allan 沃克，韦因 • 艾伦 
Wallis, John 沃里斯，约翰 

Walters，John Rodney ， Jr. 小沃尔特斯，约翰•罗德尼 

Wang，Ya Wei 王亚威 

Wang, Yihsiao 王义孝 

Ward ， Morgan 沃德，摩根 

Watanabe ， Masatoshi 渡边，雅俊 

Waters,Samuel Joseph 沃特斯，塞缪尔•约瑟夫 
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Waugh ， Evelyn，Arthur St.John 沃格，埃威林 • 阿瑟 • 

圣约翰 

Weak Bruhat order 维克•布鲁哈特顺序 

Wedekind ， Hartmut 韦得金德，哈特马特 

Wegener, Ingo Werner 维吉纳尔，印戈•维尔纳 

Wegman，Mark N 维格曼，马克 

Wegner,Lutz Michael 维格纳，卢特兹•迈克尔 

Weight-balanced trees 加权平衡树 

Weighted path length 加权通路长度 

Weisner, Louis 韦斯纳.路易斯 

Weiss ， Benjamin 韦斯，本杰明 

Weiss Harold 韦斯•哈罗德 

Weiss ， Mark Allen 韦斯，马克•艾伦 

W eissblum , W alter 韦斯布卢姆，沃尔特 

Wells ， Mark Brimhall 威尔士，马克•布里姆霍尔 

Wessner ， Russell Lee 韦斯纳，拉塞尔•李 

Wheeler ， David John 惠勒，戴维•约翰 

Whirlwind computer 沃勒温德计算机 

Whitlow ， Duane L 韦特罗，瑞尼 • L 

Wiedemann ， Douglas Henry 韦伊递曼，道格拉斯•亨 

利 

Wiener ， Norbert 韦伊纳，诺伯特 

Wigram ， George Vicesimus 韦格拉姆，乔治•维斯西 

姆斯 

Wijngaarden ， Adriaan van 维因加尔登，艾德里安•范 
Wiles, Andrew John 维里斯，安德鲁 • 约翰 
Wilf ， Herbert Saul 维尔夫，希尔伯特•绍尔 
Willard,Dan Edward 维尔拉德，丹•爱德华 
Williams, Francis A. ， Jr. 小威廉斯，弗朗西斯 • A 
Williamson，Stanley Gill 威廉逊，斯坦利•吉尔 
Wilson，David Bruce 威尔逊，戴维•布鲁斯 
Windley ， Peter Francis 温得利，彼得•弗朗西斯 
Winkier ， Phyllis Astrid Benson 温克勒，菲利斯，阿斯 

特里德•本森 

W ong ， Chak-Kuen 黄泽权 

Wood,Derick 伍德，德里克 

Woodall ， Arthur David 伍德尔，阿瑟•戴维 

Woodrum，Luther Jay 伍德朗姆，卢瑟•杰伊 

Wormald，Nicholas Charles 沃马德，尼古拉斯•查尔 

斯 


人名和术语中英对照表 


Wrench,John William,Jr. 小伦奇，约翰•威廉 
Wright Edward Maitland 赖特，爱德华 • 梅特兰 
Wu J igang 武继刚 
Wyman ， Max 怀曼，马克斯 
Yao, Andrew Chi-Chih 姚期智 
Yao, Frances Foong Chu 姚储讽 
Yoash ， Nahal Ben 约亚斯，纳哈尔•本 
Pseudonym of Gideon Yuval 吉迪安•尤瓦尔的假名 
Youden, William Wallace 尤登，威廉•华莱士 
Young ， Alfred 杨，阿尔弗雷德 
tableaux 杨氏图表 
Young,Frank Hood 杨，法兰克•胡德 
Yuba Toshitsugu 弓场敏嗣 
Yuen ， Pasteur Shih Teh 袁师德 
Yule,George Udny 尤利，乔治•尤德尼 
distribution 尤利分布 
Zalk ， Martin Maurice 扎克，马丁 •莫里斯 
Zave , Derek Alan 扎夫，德里克•艾伦 


Zeckendor f ， Edouard 泽肯多夫，埃多瓦德 

Zeilberger ， Doron 泽尔伯格，多伦 

Zero-one principle 0-1 原理 

Zeta function ^(z ) (函数 

Zhang, Bin 张斌 

Zhang ， Linbo 张林波 

Zhu, Hong 朱洪 

Zigzag paths 弯曲道路，也见 Lattice paths 
Zijlstra,Erik 吉尔斯特拉，埃里克 
Zipf ， George K ingsley 泽弗，乔治•金斯利 
distribution 泽弗分布 
Ziviani ， Ni vio 泽雅亚尼，尼维奥 
Zoberbier ， Werner 佐贝尔比尔，维尔纳 
Zodiac 佐迪亚克 

Zolnowsky , John Edward 佐诺斯基 • 约翰•爱德华 
Zuse ， Konrad 朱斯•康拉德 
Zweben , Stuart Harvey 泽维本 • 史图瓦特•哈维 
Zwick,Uri 泽维克，尤里 


Although you may pass for 
an artist, computist, or analyst ， 
yet you may not be justly esteemed 

a man of science. 

尽管你作为一名艺术家、计算家或分析家可能是合格的， 

但你未必能被公正地尊为一位科学家。 

—GEORGE BERKELEY , The Analyst (1734) 
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内容简介 


本书是国内外业界广泛关注的《计算机程序设计艺术》第 3 卷的最新版。本 
卷全面考察了经典计算机排序和查找技术。它扩充了第1卷对数据结构的处 
理，以将大小数据库和内外存储器一并 考虑； 遴选了经精心核验的计算机方法， 
并对其效率做了定量分析。本卷的突出特点是对“最优排序”一节的修订和对排 
列论与通用散列法的讨论。 

本书附有大量习题和答案，标明了难易程度和数学概念的使用。 

本书内容精辟，语言流畅，引人入胜，可供从事计算机科学及相关学科的工 
作人员参考、研究和借鉴，也是相关专业高等院校的理想教材和教学参考书。 

本次印刷已根据 http : //sunburn. Stanford. edu/~ knuth/taocp. html 上的最新 

勘误表（截止到 2003 年 1 月 25 日 ） 校正了原版书中的错误。 



Read 丨 forward balanced merge 


o o o oo o o 


Read 丨 forward polyphase merge 




!■ 


00 0 00 0 0 


Read 丨 forward cascade merge 


auu 




o o o c 000 


Tapelsuitting polyphase merQrqe 
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1 opscpdl CP nlerg ( T > with rewind overlap 




Read,baclcward balanced 


merge 
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Head-backward cascade merge 


l^l 1 ! 
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字符 

代码 



04 



01 



02 



03 


10 


无操作 


NOP(O) 


rA—rA + V 

ADD(0 ： 5) 

FADD(6) 


rA—rA - V 
SUB(0 ： 5) 
FSUB(6) 


rAX—rA x V 
MUL(0 ： 5) 
FMUL(6) 


08 



10 



11 


rA—V 

LDA(0：5 



rll—V 

LD1(0 ： 5) 


rI2—V 

LD2(0 ： 5) 


rI3—V 

LD3(0 ： 5) 


16 



17 



rll 


V 



19 


■ 


rI3 


V 


LDAN(0 ： 5) 


LD1N(0 ： 5) 


LD2N(0 ： 5) 


LD3N(0 ： 5) 






设备 F 忙碌吗 ? 

JBUS(O) 


控制，设备 F 

ioc(o) 




A:0 , 转移 

JA[ + ] 




rA—[rA]? ± M 

inca(o) deca(i) 

ENTA(2) ENNA(3) 


11 — 


rll—[rll]? ±M 

INCl(O) DECl(l) 
ENT1(2) ENNl(3) 


r!2 — [r!2]?±M 

INC2(0) DEC2(1) 
ENT2(2) ENN2(3) 


rB^frB]? ± 

INC3 (0) DEC3( 
ENT3 (2) ENN3( 



56 



57 



58 



59 


CI—rA(F):V 

CMPA( 0:5) 
FCMP(6) 


Cl—rIl(F):V 

CMP1(0:5) 


Cl—r!2(F):V 

CMP2(0 ： 5) 


Cl—rI3(F):V 

CMP3(0:5) 



C = 操作码，指令的 (5:5) 字段 

F = 操作码的变形，指令的 (4:4) 字段 

M = 变址后的指令地址 

V=M(F) = 单元 M 的 F 字段的内容 

OP 二操作的符号名 

(F) = 标准的 F 设定 

^执行时间『=互锁时间 

































04 

12 

05 

10 

rAX<-rAX/V 

rX — 余数 

DIV(0 ： 5) 

FDIV(6) 

4 

N" 

ci- 

H ： 

% 

IA 

La 

朱的 

1(0) 

R(l) 

： (2) 

12 

2 

13 

■ 

rI4—V 

LD4(0 ： 5) 

rI5—V 

LD5(0 ： 5) 

20 

2 

21 

2 

rI4< 

LD4K 

-V 

[(0:5) 

rI5- 

LD5N 

--V 

(0:5) 

28 

2 

29 

2 

M(F)—rI4 

ST4(0 ： 5) 

M(F)—rI5 

ST5(0 ： 5) 

36 

1 + T 

37 

1 + T 

输入， 

IK 

) 

设备 F 
[(0) 

输岀， 

OIZ 

设备 F 

Ko) 

-^i 

44 

1 

45 

• 

1 

rl4:0 , 转移 

J4[ + ] 

rI5:0 , 转移 

J5[ + ] 

52 

1 

53 

1 

r I4^[rI4]? + 

工 NC4(0) DEC/ 

ENT4 (2) E 應 

M 

Ki) 

K3) 

rI5 — [rI5]?± 

工 NC5(0) DEC5 

ENT5 (2) ENN^ 

■ 

M 

)(1) 

)(3) 

60 

_ A _ 

2 

61 

■ 

Cl—rI4(F):V 

CMP4(0 ： 5) 

CI—rl5(F):V 

CMP5(0 ： 5) 


rA = 寄存器 A JL(4) < N(C 

rX = 寄存器 X JE ( 5 ) = Z (: 

rAX = 寄存器 A 和 X 当做一个 JG (6)> P (: 

山 = 变址寄存器 z , 1^ z ^6 JGE (—) >:二 

rj =寄存器 J ~ NE(b ) ^1'；： 

n = 比较指示器 jie ^ c ; 


r 

06 

_ iL. 

■ 

2 

• - - J* 

07 

i . 

dF 

fl 

SI 

SL/ 

SI 

;/’ 立 M 八字节 
」 A(0) SRA(l) 

\K{2) SRAX(3) 
,C(4) SRC ⑸ 

_L 

从 M f 

MOV 

多动 F 字 

rll 

r E(l) 

14 

i 

2 

] 

15 

_i 

2 

_i 

---- r 

i ， I6— V 

LD6(0 ： 5) 


rX—V 

LDX(0 ： 5) 

_i 

22 

n 

2 

23 

2 


i 

rI6— - V 

LD6N(0 ： 5) , 

T 

rX< 

」DXb 

-V 

J(0 ： 5) 

_I 

30 

2 

31 

2 


M(F)—rI6 

ST6(0 ： 5) 

M(F)—rX 

i 

STX(0 ： 5) 

38 

1 

39 

1 

/ 

V 设备 F 就绪？ 

JRED(O) 

JM ： 

JOV 

还 3 

转移 

p(0) JS 
r (2) JN( 

¥ 下边 K 

j(i) 

)V(3 ： 

f [ 关： 

) 

46 

1 

47 


rI6:0, 转移 

J6[ + ] 

> rX:0, 转移 

JX[ + ] 

54 

1 

55 


rl 

工 N( 

ENC 

6 — [rl6]? ± 

： 6(0) DEC6 
P6(2) ENN6 

M 

)(1) 

)(3) 

rX—[rX]? 

工 NCX(0) DE 

ENTX(2) EN 

土 

； C> 

M 

v(l) 

C(3) 

62 


63 

2 


CI—rI6(F):V 

CMP6(0:5) 


Cl—rX(F)：V 

CMPX(0 ： 5) 












































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































第 1 卷 / 基本算法（第3版） 

丛书第1卷以基本的程序设计概念和技术开 
始，然后专注于信息结构——计算机内部信 
息的表示、数据元素之间的结构关系及其有 
效处理方法。描述了模拟、数值方法、符号 
计算、软件与系统设计的初等应用。新版本 
增加了几十项简单但重要的算法和技术，并 

对有关数学预备知识做了大量修正以适应现 
时研究的趋向。 


第2卷/半数值算法（第3版） 

第2卷对半数值算法领域做了全面介绍，分 
“随机数”和“算术”两章。本卷总结了主要 
算法范例及这些算法的基本理论，广泛剖析 
了计算机程序设计与数值分析间的相互联系。 
第3版中特别值得注意的是 Knuth 对随机数 

生成程序的重新处理和对形式幂级数计算的 
讨论。 


第3卷/排序和查找（第2版） 

第3卷的头一次修订对经典计算机排序和查 
找技术做了最全面的考察。它扩充了第1卷 
对数据结构的处理，以将大小数据库和内外 
存储器一并 考虑； 遴选了精心核验的计算机 
方法，并对其效率做了定量分析。第3卷的 
突岀特点是对“最优排序” 一 节的修订和对 
排列论与通用散列法的讨论。 
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> 







i 




National Defence Industry Press 
http://www.ndip.com.cn 




Addison 

Wesley 


计算机科学 / 程序设计 


它本来是作为参考书撰写的，但有人却发现每一卷都可以饶有兴致地从头读到尾。 一 位中国的程序 

员甚至把他的阅读经历比做读诗 。/ • > 、 . 

# 

如果你认为你确实是一个好的程序员，读一读 Knuth 的《计算机程序设计艺术》吧，要是你真把它读 


通了，你就可以给我递简历了。 


Bill Gates 


这一鸿篇巨制被广泛誉为对经典计算机科学的权威描述，头三卷在几十年来一直是学生、研究人员 
和业内人士的无价财富 O • k 




一部所有基础算法的宝典，今天的许多软件开发者关于计算机程序设计的绝大多数知识都是从该宝 


典中获得的 


o 


Byte, September 1995 




不计其数的读者深受 Krmth 著作的影响。科学家们惊讶于他的分析的精美与雅致，而普通程序员每天 
都从其提供的 “ 菜谱 ” 中获得问题解决方案。书的恢宏、透彻、精确与幽默赢得了所有人的尊敬。 

我无法描述它们在我学'习和娱乐中伴我度过的愉悦时光。我在车里，在餐馆里，在家里……甚至在 
我儿子棒球小联赛的间隙都忘不了带上它们， 一 有空就捧出来阅读。—— 


Charles Long 


不管你基础如何，倘若你想认真地编写任何计算机程序，你都有理由把这套书的任何一卷抱回家，以 
便在你学习和工作的时候随时翻阅。 、 < 9 . 


要是有一个问题难到要把 Knuth 的著作请下书架，那就太令人愉悦了。我发现， 


0 ^ 


就会对计算机产生极其有用的令人“恐慌”的影响 


•Jonathan Laventhol 


为反映该领域的最新发展， Knuth 二十多年来第一次将三卷书全部做了修订。他的修订主要集中在上 
版以来趋于一致的知识，已经解决的问题，以及有所变化的问题。为保持本书的权威性，关于该领域先 
驱工作的历史信息都做了更新。为维护作者苦心孤诣追求至善至美的盛誉，新的版本将敏锐和苛刻的读者 

发现的少量技术错误都做了更正。增加了上百的新习题，对您也是新的挑战。 


v 


责任编辑：辛再甫 zfxin @ ndip . com.cn 
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